AI Agent 正在重塑一切：从“执行命令”到“完成目标”

你想要“实习生”还是“CEO”？

假设你有两种类型的助理：

“实习生”助理： 你必须给他非常具体的指令：“第一步，去谷歌搜索‘AI Agent’；第二步，打开前 5 个链接；第三步，总结每个链接的核心观点…”。你必须全程盯着他，一旦出错，整个流程就会卡住。
“CEO”助理： 你只需要告诉他一个目标：“下周给我一份关于 AI Agent 现状的深度报告，要包含核心技术、市场挑战和未来趋势。” 至于他如何去搜集资料、是去问专家还是查论文、如何组织报告，你一概不管。他会自己规划、执行、反思、交付最终结果。

在过去，我们使用 ChatGPT 时，我们扮演的是“老板”，而 ChatGPT 是“实习生”。

而 AI Agent，就是那个“AI CEO”助理。

这种从“执行命令”（命令式）到“完成目标”（声明式）的范式转变，正是 AI Agent 的核心。今天，我们就来深度拆解这个“AI CEO”的大脑，看看它如何工作，为何频频“翻车”，以及我们该如何务实地驾驭它。

一、Agent 的“大脑”：拆解核心三要素

首先，一个常见的误区是 Agent ≠ LLM。

大型语言模型（LLM）只是 Agent 的“推理大脑”（发散：Andrej Karpathy 把现代 AI Agent 架构中的 LLM 比作 CPU，把上下文窗口比作 RAM，即缓存）。一个真正的 Agent 是一个完整的系统，它由三大核心支柱构成：

规划 (Planning)： 这是 Agent 拥有“智慧”的关键。它不仅仅是执行，更是“思考”。当面对一个“做报告”的复杂任务时，它会首先进行任务分解（“1. 搜索；2. 筛选；3. 总结…”）。
- ReAct 框架： 这是目前 Agent 最核心的运行逻辑之一，全称为 Reasoning + Acting （推理+行动）。传统 LLM 止步于“思考”（Chain of Thought，思维链），而 Agent 则将“思考”和“行动”结合。
  - Reasoning (推理)： LLM 会先生成一个“思考”：“我需要知道‘AI Agent’的最新进展。”
  - Acting (行动)：基于这个思考，它决定调用一个“行动”：Action: search("AI Agent 最新进展")。
- 自我反思 (Self-Reflection)： 在 ReAct 循环中，Agent 会“观察”到行动的结果（Observation: "搜索结果..."），然后进行自我反思：“这个结果太宽泛了，我应该搜索‘AI Agent 工程挑战’。” 这种“思考 -> 行动 -> 观察 -> 思考”的循环，就是它迭代改进、解决复杂问题的关键。
记忆 (Memory)： 你不会希望你的 CEO 助理转头就忘了五分钟前你说的话。Agent 通过两种记忆克服 LLM 的“金鱼脑”：
- 短期记忆： 即 LLM 的上下文窗口，用于处理当下的任务。（发散：“上下文工程”就是当下解决短期记忆限制的一个重要课题）
- 长期记忆： 一个外部的向量数据库。这是解决“上下文窗口限制”的关键。Agent 可以把学到的经验、关键信息、乃至过去的对话历史“存入”这个数据库，并在未来需要时通过“检索”（例如，检索 N 个最近的步骤 + K 个最相关的步骤）来“记起”过去的“我”是谁、做过什么。（发散：“RAG”是当下做长期记忆的主流方案）
工具使用 (Tool Use)： LLM 本身被“冻结”在训练数据里（发散：LLM是预训练模型，详情见文章“大语言模型（LLM）训练的三个阶段”），它既不知道今天的天气，也不会运行代码。工具赋予了 Agent “动手”的能力。
- 为什么需要工具？ 因为 LLM 是“离线”的，而世界是“在线”的。工具就是 Agent 与真实世界互动的“手”和“眼”。
- 常见的工具：
  - 使用搜索引擎获取实时信息。
  - 使用代码执行器来计算或运行程序。
  - 连接到数据库（如公司的内部知识库）来获取专有数据。
- 专用工具案例：像 ChemCrow 这样的科学发现 Agent，它被赋予了 13 个化学领域的专业工具，使其能自主完成药物发现等复杂任务。

二、“Agent”的进化阶梯：从L1到L4的自主之路

“Agent”的智能和自主性不是一蹴而就的。就像自动驾驶从“巡航定速”进化到“完全自动驾驶”一样，AI Agent 也有着清晰的进化等级。

根据 AWS 的划分，我们可以将其分为四个等级（L1-L4）：

L1 – 链 (Chain):
- 这是最基础的自动化。 在这个级别，动作和顺序都是预先定义好的，就像一个固定的流水线。它本质上是“机器人流程自动化”（RPA）。
- 例子： 一个自动从 PDF 发票中提取数据，并将其填入数据库的脚本。
L2 – 工作流 (Workflow):
- 动作是预定义的，但顺序是动态的。 在这个级别，系统开始使用 LLM 或路由器来“决策”下一步该做什么，但它的选项仍然被限制在人类预先设定的几个“动作”之内。
- 例子： 这就是 Anthropic 提倡的“提示链”或“路由”模式。例如，一个客服工作流，可以动态决定是“回复简单问题”还是“转接人工”。
L3 – 部分自主 (Partially Autonomous):
- 这是 Agent 开始真正“自主”的起点。 你给它一个目标和一个“工具包”（特定领域的 API），它就能自主地规划、执行和调整一系列动作，只需很少的人工监督。
- 例子： 这就是 ReAct 循环的用武之地。比如一个 SQL Agent，当它第一次查询数据库失败时（“表名错误”），L2 工作流会崩溃，但 L3 Agent 能“观察”到错误，“反思”并“修正”SQL 语句，然后进行第二次尝试，直到成功为止。
L4 – 完全自主 (Fully Autonomous):
- 这是我们追求的“AI CEO”。 在这个级别，Agent 几乎不需要监督，可以跨领域工作。它不仅能规划和执行，甚至能主动设定新目标、适应结果、甚至自己创造或选择新工具来完成任务。
- 例子： 斯坦福的“Agent小镇”（模拟人生）实验就是 L4 的雏形，Agent 们会“主动”发起和筹办派对。AutoGPT 那种“帮我增加推特粉丝”的开放式目标也属于此类。

（注：根据 AWS 的文章，截至 2025 年初，大多数企业应用仍停留在 L1 和 L2，少数在 L3 探索，L4 仍处于起步阶段。）

三、理想 vs. 现实：为什么你的“AI CEO”总是翻车？

理论很丰满，但任何一个尝试过开发 L3/L4 Agent 的开发者都会发现，现实很骨感。Agent 常常跑着跑着就“跑偏了”，忘了最初的目标，或者陷入了无法解决的循环。

为什么？因为将 Agent 从“玩具”变为“生产力工具”极其困难。根据 LangChain 创始人 Harrison Chase 的一线实战经验，Agent 至少面临七大工程挑战：

挑战：稳定解析 LLM 的输出
- 问题： LLM 返回的是一串“字符串”，你需要非常稳定地从中解析出它想调用的“工具”和“参数”。
- 解法： 强制 LLM 输出 JSON 格式，并使用“输出解析器”（Output Parsers），这些解析器甚至可以在解析失败时，反过来“重试”或“修复”LLM 的输出。
挑战：让 Agent 恰当使用工具
- 问题： Agent 怎么知道该用哪个工具？
- 解法： “工具描述”至关重要。你必须像“为初级开发者写文档”一样，清晰描述每个工具的用途和参数，这被称为 ACI (Agent-Computer Interface，智能体-计算机接口)。
挑战（反直觉）：让 Agent 别用工具
- 问题： 开发者发现，Agent 倾向于“工具依赖”，即使在闲聊时也非要调用一个工具，导致答非所问。
- 解法（HACK）： 在提示词里提醒它；或者一个“黑客”技巧：创建一个叫 respond_to_user（回复用户）的“假工具”，Agent 就会倾向于调用这个“工具”来回复。
挑战：Agent 会“忘记”最初目标
- 问题： 在长任务中，Agent 跑了几个步骤后，就“跑偏了”。
- 解法： 在每一步的提示词最后，“重申最终目标”。 2. 像 BabyAGI 项目那样，分离“规划”和“执行”，有一个“规划 Agent”专门维护高级任务列表，防止“执行 Agent”迷失。
挑战：解决“上下文窗口”限制
- 问题： 几步的“思考-行动-观察”循环就会塞满上下文。
- 解法： 依靠“长期记忆”。典型的做法是，在提示词中塞入“N 个最近的步骤 + K 个最相关的步骤”，兼顾时效性和相关性。或者快满时给上下文做一下摘要，把摘要作为新的上下文输入。（发散：未来可能可以应用DeepSeek提出的“上下文光学压缩”，实现无限上下文）
挑战：工具的“输出”太长
- 问题： 一个 API 调用可能返回海量的 JSON 数据，瞬间塞爆上下文。
- 解法： 必须对输出进行“解析和剪裁”。例如，（让另一个 LLM 总结）或者（只保留最重要的字段）或者（只粗暴地取前 1000 个字符）。
挑战：如何“评估” Agent
- 问题： 只看“最终答案”是否正确是远远不够的。
- 解法： 必须评估“中间轨迹”（intermediate steps）。例如：它是否调用了正确的工具？它是否走了弯路（效率）？它调用工具的参数是否正确？

四、务实之路：别先招“CEO”，先建“工作流”

面对如此多的挑战，我们该怎么办？

Anthropic 根据其客户的成功经验，给出了一个非常务实的答案：不要一开始就追求那个“完全自主”的 L4 CEO。

一个反直觉的真相是：目前最成功的 Agent，往往不是最“自主”的。

在真实的生产环境中，可控的、可预测的“L2 工作流 (Workflows)” 远比不可控的“L3/L4 自主 Agent (Agents)” 更可靠、更成功。

与其追求一个大而全的 Agent，不如像搭乐高一样，从 Anthropic 提倡的简单“可组合模式”开始构建：

模式一：提示链 (Chaining) – L2
- 比喻： 工业流水线。
- 做法： A -> B -> C 的固定流程。例如：第一步，LLM 生成大纲；第二步，人类审核员点击“批准”；第三步，另一个 LLM 根据已批准的大纲撰写正文。

模式二：路由 (Routing) – L2
- 比喻： 智能交通警察。
- 做法： 一个“路由”LLM 作为分流器。例如：一个客服请求进来，路由 LLM 判断：“是简单退款？ -> 转给 L2 工作流 A”；“是复杂技术抱怨？ -> 转给 L3 Agent B 或人工”。

模式三：协调器-工人 (Orchestrator-Workers) – L3
- 比喻： “总包商”与“分包工头”。
- 做法： 一个“协调器”LLM（总包商）接收复杂任务（如“重构这个项目”），将其动态分解为 5 个子任务，然后“分派”给 5 个并行的“工人”LLM 去执行。最后，协调器汇总所有结果。

模式四：评估器-优化器 (Evaluator-Optimizer) – L3
- 比喻： “作者”与“编辑”的循环。
- 做法： 一个 LLM（优化器）负责生成内容，另一个 LLM（评估器）负责提供批评和反馈。优化器根据反馈修改，循环往复，直到评估器“满意”为止。

Agent 的未来——“人机协作”

AI Agent 的终极目标，不是为了“取代”人类这个最终的“老板”，而是为了“增强”我们。

正如 ByteByteGo 和 AWS 的文章共同指出的，目前最实用、最强大的架构是“人机协作”（Human-Machine Collaborative）。Agent 正在从“工具”进化为“队友”。

Agent 负责处理繁琐的分析、执行和常规决策，而人类则从“实习生导师”的角色中解放出来，专注于提供创意、把握方向和做出最关键的决策。

你的“AI 实习生”正在经历培训，它会很快进化成“经理”，然后是“总监”。而你的角色，将永远是那个设定最终目标的“CEO”。

学习资料推荐：

Lilian Weng所著 Agent 架构（经典必读）：详细说明了 Agent 的核心架构（规划、记忆、工具）。原文链接。
Anthropic Agent构建经验分享（实用工程建议）：提供了“工作流” vs “Agent”的实战区分和多种可组合模式。原文链接。
ByteByteGo 对Agent系统的介绍：介绍了三种架构（单体、多体、人机协作）。视频链接。
LangChain 创始人（实战经验分享）: 揭示了让 Agent 落地的七大核心工程挑战和解决方案。视频链接。
IBM（Agent分类框架）：介绍了五种经典的 Agent 分类。视频链接。