Agent不是噱头:一位AI工程师讲清它为何难、却值得

AI PM 编辑部 · 2025年02月22日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

很多人把“AI Agent”当成新一轮营销热词,但在这场演讲中,Chip 用亲身经历、经典定义和真实工程难题解释了:Agent并不新,却异常困难;也正因为难,它才是通往下一代AI应用的关键路径。

Agent不是噱头:一位AI工程师讲清它为何难、却值得

很多人把“AI Agent”当成新一轮营销热词,但在这场演讲中,Chip 用亲身经历、经典定义和真实工程难题解释了:Agent并不新,却异常困难;也正因为难,它才是通往下一代AI应用的关键路径。

为什么大家都在说Agent,却又觉得它是“Buzzword”?

这场演讲一开始,Chip 就用一种略带自嘲的方式介绍自己:曾创办 AI 基础设施公司、与 NVIDIA 等公司合作、在斯坦福教过课,卖掉公司后“快乐地失业”。他原本准备了一套完整的 Agent 主题分享,结果发现前一天大家已经把基础内容讲得差不多了,于是临时推翻重来,专门为这次大会准备了一场“更新、更难、也更真实”的演讲。

他直面一个行业共识:今天只要讲 Agent,就“有义务先定义什么是 Agent”。而很多人之所以觉得 Agent 是噱头,核心原因并不是它没用,而是——大家真的还没把它做好。Chip 明确表态:“很多人觉得 Agent 的讨论都是 hype,但我不这么认为。我觉得有大量非常令人兴奋的用例。”

为了反驳“新概念炒作论”,他回到 80、90 年代的经典 AI 文献,引用 Stuart Russell 和 Peter Norvig 的定义:Agent 是“能够感知环境,并对环境采取行动的实体”。在这个定义下,Agent 不是新名词,甚至不神秘:下棋程序、能浏览互联网的 ChatGPT,都可以被视为 Agent。问题不在于概念,而在于工程实现的复杂性。

行动(Action)为何是Agent的灵魂,而不仅是“加工具”

Chip 强调,Agent 真正的分水岭在于“行动能力”,也就是模型是否能调用外部工具、API 或系统。原因非常现实:模型天生有局限。比如,所有大模型都有知识截止日期,这让它们难以回答实时问题;再比如,语言模型普遍不擅长数学。

他的解决思路非常工程化:与其强行训练模型掌握一切,不如让它“会用工具”。给模型一个新闻 API,它就能回答最新事件;给它一个计算器,它就不必硬算复杂数字。这并不是作弊,而是系统设计。

更有意思的是,多模态能力的扩展。在 Chip 的例子中,一个只能处理文本的语言模型,只要能调用图像描述工具,就能“间接理解图片”。模型先用工具生成图片描述,再基于描述推理和回答问题。通过行动,单模态模型被嵌入到更大的工作流中。

Chip 认为,这才是 Agent 真正令人兴奋的地方:“actions allowed you to embed models into the workflow”。模型不再是对话窗口,而是流程的一部分。

Agent真正的敌人:复杂度诅咒

当话题从“能做什么”转向“为什么还没普及”,Chip 给出了一个残酷但诚实的答案:Agent 太容易失败了。他称之为“复杂度诅咒”。无论是人还是 AI,任务越复杂,失败概率就越高。

在他观察到的大多数实际 Agent 项目中,能稳定完成超过五个步骤的任务“非常罕见”。这不是模型不聪明,而是系统一旦涉及多步推理、工具调用、状态管理,就会迅速失控。更可怕的是,在商业环境中,失败不是“回答错一句话”,而是可能造成“灾难性的业务后果”。

因此,一个核心工程问题变成了:你怎么知道你的 Agent 能处理多复杂的任务?不同业务、不同场景,对“复杂度”的定义完全不同,而这决定了 Agent 是否应该被放到生产环境。

好消息是,Chip 的基准测试显示,新一代模型在规划能力上确实在进步。他展示了多条性能曲线,来自 Gemini 2.0 Flash Thinking、o1-preview 等模型,曲线整体在向上移动,意味着模型能够解决的任务复杂度正在提升。这不是幻想,而是可观测的趋势。

工具调用与上下文:Agent工程中最被低估的成本

在复杂度之外,Chip 重点讲了两个极其“工程向”的难题:工具调用(tool use)和上下文管理。所谓工具调用,本质是把自然语言指令翻译成 API 调用序列。比如一句“根据这封客户邮件创建订单”,背后可能需要多个函数:提取客户 ID、解析订单信息、再调用创建订单接口。

Chip 给出的经验非常具体:工具一定要少、窄、定义清晰。他提到一位在大型搜索公司工作的朋友,他们给 Agent 的工具只有三到四个,每一个都“非常小、非常明确”。工具文档不仅要有参数说明,还要清楚返回值和边界条件。

而上下文问题,则是 Agent 的“隐形杀手”。除了系统指令、示例、工具文档,Agent 还要不断累积每一步执行结果、规划推理、反思判断。这些都会消耗上下文窗口和 token。任务越复杂,信息增长越快,成本和延迟也随之上升。

正如 Chip 所说:“we have been talking about context for a long time… but with agents, you see a lot more information。”Agent 不是一次调用,而是一条不断膨胀的信息链。

总结

Chip 的核心观点并不激进,却非常清醒:Agent 不是噱头,也不是灵丹妙药。它是一个历史悠久、工程复杂、失败率极高,但正在随着模型能力提升而逐步变得可行的方向。真正成熟的 Agent,不会来自炫技 Demo,而来自对复杂度的敬畏、对工具边界的克制,以及对上下文成本的精细管理。对读者而言,最大的启发或许是:在问“Agent 能做什么”之前,先问一句——“它会在第几步失败?”


关键词: AI Agent, 工具调用, 复杂度诅咒, 上下文窗口, 多模态

事实核查备注: 演讲者:Chip(姓氏未在视频中提及);引用定义来自 Stuart Russell 与 Peter Norvig;提及模型:Gemini 2.0 Flash Thinking、o1-preview;提及产品:ChatGPT;提及公司:NVIDIA;观点均来自 2025-02-22 AI Engineer 频道演讲内容。