来自前Manus工程师的一线总结：构建一个有效的Agent需三种能力

Intro

这是 AI 闹的新栏目 AI 实践派（AI Practitioners）。我们持续关注在 AI 领域使用新认知、新范式解决真问题的 AI builder。

过去半年，AI 行业有一个能力变得刚需而紧缺：为 Agent 架构流程（Agentic Process Architect）。这个能力简单概括就是把大模型变成一个「能办事的员工」。

业内共识在发生变化：在模型增速放缓的当下，Agent 的架构将会越发重要。硅谷的一些大公司为一个初级 Agent 流程架构师开出的年薪达200万美元。

本文分享者许长鹏（CP @yan5xu）曾在 Manus&Monica 担任工程师，长期活跃在推特社区，一直自称为 AI 野生研究员。

他发现当大家在讨论如何架构一个 Agent 时常陷入两种误区：

• 第一是认为它无所不能，什么都能干；

• 第二是过度简化，认为它不过是把大模型多调用几次的产物。

「核心原因是大家对 Agentic 循环过程的体感缺乏理解。」许长鹏告诉 AI 闹，「相当于大家直接看了答案，很多中间的思考跳过。」

源于他开发 Agent 的实践经验和离职后与许多团队密集交流的结果，他提出了一个重点观点：构建一个有用的 Agent，并非源于模型智力的飞跃，而是源于如何围绕模型设计一套行之有效的「认知流程」。

许长鹏认为，这个过程本质是在用更多的计算步骤和更长的思考时间去交换一个在真实世界「真有用」的结果，即以「时间换效果」，「我们不做可以一次就拿到结果的乐观假设，而是通过可信的过程，来确保结果的质量。」

他用了一个非常生动的比喻，大模型是一个天才少年叫小明，让小明直接参加高考，他大概率不能获得一个好成绩。原因是他缺乏对学习—考试的基本认知。所以必须有人指导他：

• 写完要检查试卷，否则容易出错（基础 API 调用阶段）；

• 推理按部就班，否则避免跳步和漏洞（思维链 CoT）；

• 要主动复盘答题过程，修正错误（自我反思）；

• 遇到老师没教过的难题，要学会规划时间，全盘考虑，哪些放弃哪些保住，调整策略取得高分

经历这一系列训练，小明才能拿到好成绩。

「小明如何一步步通过流程的设立，提高自己的成绩，在这个过程中，他的知识（智力）没有改变，但流程发生变化就能大幅提升最终成绩（效果）。」许长鹏说。以下是他的分享，我们在原文基础做了重新编辑，经过了他的校正，本文的重点围绕「如何为 Agent 建立一个有效的认知流程」

三个方法：为 Agent 装上「心脏」

第一个办法是为 AI 设计流程。

许长鹏认为，很多人初次接触 Agent 会产生一种困惑：怎么这么慢，这么笨，查个东西来来回回好几轮，远不如直接问 ChatGPT 一秒出答案。

但是这种「慢」恰恰是揭示了一个深刻的转变：

Agent 的流程架构正在从追求大语言模型（LLM）那种一次性的、直觉式的快思考，转向设计一种结构化的、可验证的慢思考。

这套「慢思考」的核心，就是我们为 AI 设计的流程。

LLM 原生的思考方式是「发散的」、「扁平的」。在面对一个真实、复杂的任务时，它的长链条推理非常脆弱，很容易在中间某个环节「跑偏」，或者干脆「忘记」最初的目标。

而设计流程，即规划（Planning）、思维链（CoT）、甚至更复杂的树状思维（Tree of Thoughts）其本质是在为 AI 混乱的思考过程，强行建立一套「逻辑脚手架」。

「规划」是将宏大到无法一次性思考的目标，比如建一栋摩天大楼分解为一系列清晰、有序、可执行的步骤，如第一步：打地基；第二步：建主体；第三步：封顶，它确保 AI 每一步行动都服务于最终目标。

「思维链」保证每一步的内部逻辑是严谨的，有点像《内部施工手册》，比如钢筋要这么绑，混凝土必须是 C50 标号，强制 AI 的推理过程必须环环相扣。

这套「逻辑脚手架」极大地提升了AI 解决复杂问题的能力上限。

第二个办法是为解决 LLM 有限的注意力。

设计反思（Reflection）、总结（Summarization）等流程，本质上是在为 AI 的记忆打造一套「高效的压缩算法」。

举一个旅行规划的案例，当 Agent 用 browser-use 的方式访问完整后发现「故宫门票售罄」时，Reflexion 流程被触发，但是 Agent 不会把官网返回的所有 HTML 代码、弹窗提示等冗长的、原始的信息，全都塞进自己本就宝贵的「记忆」。

如果是那样，它的上下文窗口很快就会被无用的信息撑爆。相反，它启动了一次「记忆压缩」，将这次失败的交互过程，提炼成了一句高信息密度的结论，并将其作为一条「经验」存入记忆：故宫门票需提前一周预订，本周不可行。

这个过程是一次「有损但极其有效」的压缩。它丢弃了99%的无关细节，来实现用极小的上下文空间，保留了对未来决策100%关键的信息。

这套「压缩算法」让 AI 拥有了「长期记忆」，而且是动态的，使其在有限的注意力范围内，处理更长的时间线，完成更复杂的任务。

第三个办法是设计「工具」让模型连接现实世界。

一个流程无论设计得多么精妙，如果它与现实世界完全隔离，那就只是空中楼阁。因此，流程必须拥有与世界交互的能力，于是工具（Tool）这个概念出现了。

工具不是一个与流程并列的概念，它更像是流程的「神经触手」。

ReAct 框架是一个将思考与行动（调用工具）深度绑定的框架。在这个框架的驱动下，AI 在思考过程中如果意识到「我的内部知识不足以支撑下一步决策」，就会主动伸出「search_api」去链接互联网，把动态的客观事实传回大脑，再继续思考。

也因此架构 Agent 的首要职责是设计模型的思考结构、记忆机制和与世界交互的范式，它通过两大核心机制来对抗模型的遗忘和混乱。

1、高效的信息压缩：如Reflexion流程，它不会把冗长的失败日志直接塞入记忆，而是将其提炼成一句高信息密度的经验教训。这是一种有损但高效的压缩，用极低的 Token 成本保留了最关键的决策信息。

2、精准的选择性注入：流程在每一个 Think 环节之前，会像一位顶级外科手术的器械护士，精准地判断此时此刻我们最需要哪一条历史经验？最需要哪一个工具，然后将这些信息组合成一个干净、高效的上下文，递给 LLM 进行处理。

两个底层认知：信息论和方法论

这里要回溯两条重要理论：

为什么为 Agent 设计从思考 -> 行动 -> 观察这个循环，从根本上就是有效的。

这里需要跳出 AI 范式，理解「控制论」和「信息论」。

先说控制论，控制论可以体现 Agent 是如何一步步「逼近」解决方案的过程。

控制论有两个系统，开环系统与闭环系统。

• 一个典型的开环系统，就像那种定时器的老式暖气。设定它运行一小时，期望它能让房间变得温暖，但它没有感知「当前室温」的能力。也因此，如果今天恰好有太阳，一小时后房间会很闷热，其根本缺陷是「缺乏反馈」。这正是标准 Chatbot 的工作模式，接收指令并一次性生成结果，不去验证这个结果是否真正解决问题。

• 一个经典的闭环系统冰箱为例，冰箱的核心任务是「维持冷藏室恒定在5°C」。

1、目标：用户设定的“5°C”。

2、传感器：内部的温度计，持续观察当前的实际温度。

3、控制器：温控芯片，思考「当前温度和目标温度之间是否存在偏差？」

4、执行器：压缩机。一旦控制器发现偏差（比如温度上升到6°C）就会命令压缩机行动

5、反馈闭环：压缩机工作导致温度下降，传感器将新温度反馈给控制器，控制器发现偏差消失（回到5°C），于是命令执行器停止。

我们可以清晰地看到，Agent 逼近目标的步骤是和冰箱的内部运作系统是一一对应的。

1、目标：用户的指令

2、传感器：观察环节，获取工具返回的结果

3、控制器：思考环节，LLM 进行推理和规划

4、执行器：行动环节，调用工具

5、反馈闭环：将观察的结果作为输入传给下一轮思考

「信息论」则揭示了 Agent 在探索复杂而未知的问题时，究竟要「做什么？」

信息论将「熵」定义为对不确定性的度量。系统的信息量越大，不确定性就越小，熵值也就越低。

解决问题的过程本质都可以视为一个「通过获取有效信息，降低熵减」的过程。

Agent 面对复杂工作正是在一个抽象的问题空间中进行一场「熵减」行动。它的每一次行动-观察的循环，都是一次科学实验，目的就是为了获取更多不确定性的信息，当「不确定」被完全消除，通往答案的唯一路径也就清晰浮现。

综上，控制论为 Agent 提供了目标的纠错能力。信息论定义则是 Agent 探索未知空间的核心理论。

这两个理论是我们必须理解 Agent 运行所依据的科学理论。

三个突破：让 Agent 性能提升

自此我们明确了架构一个有效的 Agent 的核心工作包括：

1、设计 AI 的思考流程：定义 AI 如何进行规划、拆解、推理与反思。你设计的不是一个提示词，而是 AI 的「心智内核」与「行事准则」。

2、赋能 AI 的行动工具：为 AI 锻造与物理世界和数字世界交互的双手双脚。敏锐识别流程中的信息瓶颈，并创造或接入合适的工具，让 AI 的能力边界得以延伸。

3、构建 AI 的决策上下文：不是上下文的搬运工，而是通过精妙的流程设计，确保在每一个决策瞬间，AI 的注意力恰好聚焦在最有价值的信息上。

但现在这套强大的「慢思考」在提升结果质量的同时，也带来了一个全新的工程挑战：执行效率。

如何让 Agent 在追求高质量的同时也能拥有高性能？一线的工程实践正从以下几个关键层面寻求突破。

1、架构选型与剪枝：并非所有任务都需要复杂的 ReAct 循环。通过实践发现能通过一两步直接解决问题的场景，使用 LLM 内置的工具调用范式会更高效。可以降低 token 消耗和端到端延迟。

2、并行化执行：当 Agent 的规划结果包含多个「没有依赖关系的子任务」时（例如，查询北京的天气和搜索热门商铺），现代 Agent 框架如 LangChain 已经能支持并行工具的调用，可以利用异步 I/O 的能力，将原本需要串行等待的多个 API 请求并发出去，从而将总耗时从「所有任务耗时之和」缩短为「最长任务的耗时」，这是最显著提升执行效率的方法。

3、模型特化与路由：单一模型策略正在被淘汰，更优的实践是采用混合模型策略。

例如使用一个轻量、高速的模型（如 gemini-2.5-flash, claude-haiku-4.5）承担流程中「规划」、路由或简单工具选择等高频、低复杂度的任务，遇到需要深度推理的复杂节点时，才调用重量级、高成本的核心模型（如 gpt-5-pro, gemini-2.5-pro）。分层策略能以更低的成本和延迟，完成大部分流程步骤。

4、高效的记忆架构：LLM 有限的上下文窗口决定了我们不可能将所有历史信息塞入提示。因此，设计一个高效的「记忆检索」机制至关重要。这不仅仅是技术选型（如使用向量数据库），更是策略设计。如何将对话历史、过往的行动轨迹、成功的经验与失败的教训进行压缩、提炼并结构化存储。

写在结尾

当我们为 Agent 装上「心脏」和「加速器」之后，未来最大的挑战就是为模型「构建大脑」。

当前业界最前沿的探索也正聚焦于以下几个方向：

1、认知调度中心：智能工作流编排

一个成熟的 Agent 应当像一位经验丰富的项目经理，面对不同的任务，能自主规划并编排最优的执行流程。这正是「动态流程编排」的核心思想。

Anthropic 最新发布的 Skills 功能是这一思想的最佳实践，这代表着 Agent 的思考环节已从「下一步做什么」的战术决策，进化为「如何分步达成最终目标」的战略规划。

2、规约驱动的分层架构：从单兵到团队

对于复杂任务，分层与分治是必然选择。其关键在于如何多个 Agent 高效、可靠地协作。答案是由规约驱动（Spec-Driven）。

一个「规划 Agent」首要任务是生成一份详尽、明确的技术规约，如同工程蓝图，成为所有下游「执行 Agent」工作的唯一契约。这正是以 GitHub 开源的 SpecKit 等为代表的前沿项目所探索的核心思想，它标志着 Agent 协同正在进化为可追溯、可验证的「现代软件工程」。

Ps：这部分可延展阅读我们之前报道的多智能体协作前AWS科学家让 Agent 学会彼此合作、竞争甚至争吵｜和OpenAgents创始人 Raphael Shu 聊群体智能

3、即时代码生成：从「使用工具」到「创造工具」

传统工具使用是让 Agent 在固定的工具箱里做选择题。未来的方向是让 Agent 自己创造工具。Code Act (CodeAct: A Multi-Turn Code Agent with In-Context Learning) 等研究正在引领这一趋势。

当面对没有现成工具可用时，Agent 会动态地生成一段 Python 代码（一个微型工具），在隔离环境中执行并根据执行结果推进任务。这让 Act 环节从「调用API」进化为具备无限可能的「代码生成与执行」， Agent的能力边界会得到无限的提升。

这些最前沿的探索才是未来架构一个「Agent 」最激动人心的工作。

图：Unsplash、Nano Banana

本文来自微信公众号“AI闹（ID：ainowainow）”，作者：许长鹏，内容策划：张卓，36氪出海经授权转载，如需转载请联系原作者。

欢迎填写表单，获取 AI NOW! 专访机会

AI 技术正在加速全球化进程，全球化带来的市场需求与数据流动反哺着 AI 创新。36氪出海·AI 栏目携手 AI NOW!（AI 闹），聚焦 AI 从业者的多元化视野，挖掘从技术研发到市场落地的实践，探索如何融合 AI 与各行业知识，把握未来 AI 应用场景趋势。如果您是 AI 创业者，或大企业 AI 业务负责人，欢迎扫描下方二维码，填写表单，获得 AI NOW! 专访机会。由于沟通专访的企业较多，AI NOW! 团队希望首先了解您的基本情况，并在筛选后与您联系，请您尽量留下具体、准确的信息。期待共同打造 AI 时代最好的人物访谈。

报告推荐

《跨境支付“成本问不倒”》报告下载

对跨境商户而言，建立系统性的成本认知框架，是实现有效成本管理的前提。支付费率为什么忽高忽低？都说本地收单能省钱，到底值不值得做？除了费率，还有什么在悄悄影响利润？这些问题，值得被每一位跨境商家探究。为此，36氪出海与蚂蚁集团旗下国际业务跨境支付品牌 Antom 联合推出《跨境支付“成本问不倒”》系列内容，系统梳理了理解跨境支付成本的三大维度，帮助商家揭开从成本构成到战略优化的完整逻辑链。欢迎扫描下方二维码或点击“此处”，获取完整报告。

英文服务

服务｜KrASIA 英文媒体服务助力中国公司提升全球品牌

在全球经济复杂格局的当下，英文报道不仅是向海外客户和消费者传递价值主张的重要手段，也是企业在世界范围内的认知沉淀。英文媒体 KrASIA（kr-asia.com）致力于向世界介绍中国商业和文化。英文网站约60%的读者为东南亚核心国家的商业人群。KrASIA 通过优秀的搜索引擎优化，专业的英文内容和可靠的社交媒体矩阵，以及全球顶级信息数据平台彭博终端和道琼斯 Factiva 等外部收录平台，帮助中国公司提升全球品牌。如果您的公司对英文传播有相关需求，或者希望与 KrASIA 合作提供出海服务，欢迎点击“此处”或扫描下方二维码，获取 KrASIA 媒体服务刊例和工作人员的联系方式。

加入36氪出海学习交流群

目前，36氪出海学习交流群已经吸引超过15,000位出海人加入，他们来自国内外初创企业、行业巨头、投资机构等。在出海社群里，我们为成员挑选整理每日全球跨境资讯，帮助出海人把握最新动态；定期组织出海交流活动，链接出海生态圈，寻找潜在合作伙伴。欢迎添加36氪出海小助手微信（ID：wow36krchuhai-xzs2）申请入群，一同出海！