AI Agent 正在重塑一切:从“执行命令”到“完成目标”

你想要“实习生”还是“CEO”?

假设你有两种类型的助理:

  1. “实习生”助理: 你必须给他非常具体的指令:“第一步,去谷歌搜索‘AI Agent’;第二步,打开前 5 个链接;第三步,总结每个链接的核心观点…”。你必须全程盯着他,一旦出错,整个流程就会卡住。
  2. “CEO”助理: 你只需要告诉他一个目标:“下周给我一份关于 AI Agent 现状的深度报告,要包含核心技术、市场挑战和未来趋势。” 至于他如何去搜集资料、是去问专家还是查论文、如何组织报告,你一概不管。他会自己规划、执行、反思、交付最终结果。

在过去,我们使用 ChatGPT 时,我们扮演的是“老板”,而 ChatGPT 是“实习生”。

而 AI Agent,就是那个“AI CEO”助理。

这种从“执行命令”(命令式)到“完成目标”(声明式)的范式转变,正是 AI Agent 的核心。今天,我们就来深度拆解这个“AI CEO”的大脑,看看它如何工作,为何频频“翻车”,以及我们该如何务实地驾驭它。

一、Agent 的“大脑”:拆解核心三要素

首先,一个常见的误区是 Agent ≠ LLM

大型语言模型(LLM)只是 Agent 的“推理大脑”(发散:Andrej Karpathy 把现代 AI Agent 架构中的 LLM 比作 CPU,把上下文窗口比作 RAM,即缓存)。一个真正的 Agent 是一个完整的系统,它由三大核心支柱构成:

  1. 规划 (Planning): 这是 Agent 拥有“智慧”的关键。它不仅仅是执行,更是“思考”。当面对一个“做报告”的复杂任务时,它会首先进行任务分解(“1. 搜索;2. 筛选;3. 总结…”)。
    • ReAct 框架: 这是目前 Agent 最核心的运行逻辑之一,全称为 Reasoning + Acting (推理+行动)。传统 LLM 止步于“思考”(Chain of Thought,思维链),而 Agent 则将“思考”和“行动”结合。
      • Reasoning (推理): LLM 会先生成一个“思考”:“我需要知道‘AI Agent’的最新进展。”
      • Acting (行动):基于这个思考,它决定调用一个“行动”:Action: search("AI Agent 最新进展")
    • 自我反思 (Self-Reflection): 在 ReAct 循环中,Agent 会“观察”到行动的结果(Observation: "搜索结果..."),然后进行自我反思:“这个结果太宽泛了,我应该搜索‘AI Agent 工程挑战’。” 这种“思考 -> 行动 -> 观察 -> 思考”的循环,就是它迭代改进、解决复杂问题的关键。
  2. 记忆 (Memory): 你不会希望你的 CEO 助理转头就忘了五分钟前你说的话。Agent 通过两种记忆克服 LLM 的“金鱼脑”:
    • 短期记忆: 即 LLM 的上下文窗口,用于处理当下的任务。(发散:“上下文工程”就是当下解决短期记忆限制的一个重要课题
    • 长期记忆: 一个外部的向量数据库。这是解决“上下文窗口限制”的关键。Agent 可以把学到的经验、关键信息、乃至过去的对话历史“存入”这个数据库,并在未来需要时通过“检索”(例如,检索 N 个最近的步骤 + K 个最相关的步骤)来“记起”过去的“我”是谁、做过什么。(发散:“RAG”是当下做长期记忆的主流方案
  3. 工具使用 (Tool Use): LLM 本身被“冻结”在训练数据里(发散:LLM是预训练模型,详情见文章“大语言模型(LLM)训练的三个阶段),它既不知道今天的天气,也不会运行代码。工具赋予了 Agent “动手”的能力。
    • 为什么需要工具? 因为 LLM 是“离线”的,而世界是“在线”的。工具就是 Agent 与真实世界互动的“手”和“眼”。
    • 常见的工具:
      • 使用搜索引擎获取实时信息。
      • 使用代码执行器来计算或运行程序。
      • 连接到数据库(如公司的内部知识库)来获取专有数据。
    • 专用工具案例:ChemCrow 这样的科学发现 Agent,它被赋予了 13 个化学领域的专业工具,使其能自主完成药物发现等复杂任务。
以 LLM 为核心的 Agent 系统架构

二、“Agent”的进化阶梯:从L1到L4的自主之路

“Agent”的智能和自主性不是一蹴而就的。就像自动驾驶从“巡航定速”进化到“完全自动驾驶”一样,AI Agent 也有着清晰的进化等级。

根据 AWS 的划分,我们可以将其分为四个等级(L1-L4):

  • L1 – 链 (Chain):
    • 这是最基础的自动化。 在这个级别,动作和顺序都是预先定义好的,就像一个固定的流水线。它本质上是“机器人流程自动化”(RPA)。
    • 例子: 一个自动从 PDF 发票中提取数据,并将其填入数据库的脚本。
  • L2 – 工作流 (Workflow):
    • 动作是预定义的,但顺序是动态的。 在这个级别,系统开始使用 LLM 或路由器来“决策”下一步该做什么,但它的选项仍然被限制在人类预先设定的几个“动作”之内。
    • 例子: 这就是 Anthropic 提倡的“提示链”或“路由”模式。例如,一个客服工作流,可以动态决定是“回复简单问题”还是“转接人工”。
  • L3 – 部分自主 (Partially Autonomous):
    • 这是 Agent 开始真正“自主”的起点。 你给它一个目标和一个“工具包”(特定领域的 API),它就能自主地规划、执行和调整一系列动作,只需很少的人工监督。
    • 例子: 这就是 ReAct 循环的用武之地。比如一个 SQL Agent,当它第一次查询数据库失败时(“表名错误”),L2 工作流会崩溃,但 L3 Agent 能“观察”到错误,“反思”并“修正”SQL 语句,然后进行第二次尝试,直到成功为止。
  • L4 – 完全自主 (Fully Autonomous):
    • 这是我们追求的“AI CEO”。 在这个级别,Agent 几乎不需要监督,可以跨领域工作。它不仅能规划和执行,甚至能主动设定新目标、适应结果、甚至自己创造或选择新工具来完成任务。
    • 例子: 斯坦福的“Agent小镇”(模拟人生)实验就是 L4 的雏形,Agent 们会“主动”发起和筹办派对。AutoGPT 那种“帮我增加推特粉丝”的开放式目标也属于此类。

注:根据 AWS 的文章,截至 2025 年初,大多数企业应用仍停留在 L1 和 L2,少数在 L3 探索,L4 仍处于起步阶段。

三、理想 vs. 现实:为什么你的“AI CEO”总是翻车?

理论很丰满,但任何一个尝试过开发 L3/L4 Agent 的开发者都会发现,现实很骨感。Agent 常常跑着跑着就“跑偏了”,忘了最初的目标,或者陷入了无法解决的循环。

为什么?因为将 Agent 从“玩具”变为“生产力工具”极其困难。根据 LangChain 创始人 Harrison Chase 的一线实战经验,Agent 至少面临七大工程挑战:

  1. 挑战:稳定解析 LLM 的输出
    • 问题: LLM 返回的是一串“字符串”,你需要非常稳定地从中解析出它想调用的“工具”和“参数”。
    • 解法: 强制 LLM 输出 JSON 格式,并使用“输出解析器”(Output Parsers),这些解析器甚至可以在解析失败时,反过来“重试”或“修复”LLM 的输出。
  2. 挑战:让 Agent 恰当使用工具
    • 问题: Agent 怎么知道该用哪个工具?
    • 解法: “工具描述”至关重要。你必须像“为初级开发者写文档”一样,清晰描述每个工具的用途和参数,这被称为 ACI (Agent-Computer Interface,智能体-计算机接口)。
  3. 挑战(反直觉):让 Agent 别用工具
    • 问题: 开发者发现,Agent 倾向于“工具依赖”,即使在闲聊时也非要调用一个工具,导致答非所问。
    • 解法(HACK): 在提示词里提醒它;或者一个“黑客”技巧:创建一个叫 respond_to_user(回复用户)的“假工具”,Agent 就会倾向于调用这个“工具”来回复。
  4. 挑战:Agent 会“忘记”最初目标
    • 问题: 在长任务中,Agent 跑了几个步骤后,就“跑偏了”。
    • 解法: 在每一步的提示词最后,“重申最终目标”。 2. 像 BabyAGI 项目那样,分离“规划”和“执行”,有一个“规划 Agent”专门维护高级任务列表,防止“执行 Agent”迷失。
  5. 挑战:解决“上下文窗口”限制
    • 问题: 几步的“思考-行动-观察”循环就会塞满上下文。
    • 解法: 依靠“长期记忆”。典型的做法是,在提示词中塞入“N 个最近的步骤 + K 个最相关的步骤”,兼顾时效性和相关性。或者快满时给上下文做一下摘要,把摘要作为新的上下文输入。(发散:未来可能可以应用DeepSeek提出的“上下文光学压缩”,实现无限上下文
  6. 挑战:工具的“输出”太长
    • 问题: 一个 API 调用可能返回海量的 JSON 数据,瞬间塞爆上下文。
    • 解法: 必须对输出进行“解析和剪裁”。例如,(让另一个 LLM 总结)或者(只保留最重要的字段)或者(只粗暴地取前 1000 个字符)。
  7. 挑战:如何“评估” Agent
    • 问题: 只看“最终答案”是否正确是远远不够的。
    • 解法: 必须评估“中间轨迹”(intermediate steps)。例如:它是否调用了正确的工具?它是否走了弯路(效率)?它调用工具的参数是否正确?

四、务实之路:别先招“CEO”,先建“工作流”

面对如此多的挑战,我们该怎么办?

Anthropic 根据其客户的成功经验,给出了一个非常务实的答案:不要一开始就追求那个“完全自主”的 L4 CEO。

一个反直觉的真相是:目前最成功的 Agent,往往不是最“自主”的。

在真实的生产环境中,可控的、可预测的“L2 工作流 (Workflows)” 远比不可控的“L3/L4 自主 Agent (Agents)” 更可靠、更成功。

与其追求一个大而全的 Agent,不如像搭乐高一样,从 Anthropic 提倡的简单“可组合模式”开始构建:

  • 模式一:提示链 (Chaining) – L2
    • 比喻: 工业流水线。
    • 做法: A -> B -> C 的固定流程。例如:第一步,LLM 生成大纲;第二步,人类审核员点击“批准”;第三步,另一个 LLM 根据已批准的大纲撰写正文。
  • 模式二:路由 (Routing) – L2
    • 比喻: 智能交通警察。
    • 做法: 一个“路由”LLM 作为分流器。例如:一个客服请求进来,路由 LLM 判断:“是简单退款? -> 转给 L2 工作流 A”;“是复杂技术抱怨? -> 转给 L3 Agent B 或人工”。
  • 模式三:协调器-工人 (Orchestrator-Workers) – L3
    • 比喻: “总包商”与“分包工头”。
    • 做法: 一个“协调器”LLM(总包商)接收复杂任务(如“重构这个项目”),将其动态分解为 5 个子任务,然后“分派”给 5 个并行的“工人”LLM 去执行。最后,协调器汇总所有结果。
  • 模式四:评估器-优化器 (Evaluator-Optimizer) – L3
    • 比喻: “作者”与“编辑”的循环。
    • 做法: 一个 LLM(优化器)负责生成内容,另一个 LLM(评估器)负责提供批评和反馈。优化器根据反馈修改,循环往复,直到评估器“满意”为止。

Agent 的未来——“人机协作”

AI Agent 的终极目标,不是为了“取代”人类这个最终的“老板”,而是为了“增强”我们。

正如 ByteByteGo 和 AWS 的文章共同指出的,目前最实用、最强大的架构是“人机协作”(Human-Machine Collaborative)。Agent 正在从“工具”进化为“队友”。

Agent 负责处理繁琐的分析、执行和常规决策,而人类则从“实习生导师”的角色中解放出来,专注于提供创意、把握方向和做出最关键的决策。

你的“AI 实习生”正在经历培训,它会很快进化成“经理”,然后是“总监”。而你的角色,将永远是那个设定最终目标的“CEO”。

学习资料推荐:

  • Lilian Weng所著 Agent 架构(经典必读):详细说明了 Agent 的核心架构(规划、记忆、工具)。原文链接
  • Anthropic Agent构建经验分享(实用工程建议):提供了“工作流” vs “Agent”的实战区分和多种可组合模式。原文链接
  • ByteByteGo 对Agent系统的介绍:介绍了三种架构(单体、多体、人机协作)。视频链接
  • LangChain 创始人(实战经验分享): 揭示了让 Agent 落地的七大核心工程挑战和解决方案。视频链接
  • IBM(Agent分类框架):介绍了五种经典的 Agent 分类。视频链接

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部