Agent不是噱头：一位AI工程师讲清它为何难、却值得

AI PM 编辑部 · 2025年02月22日 · 21 阅读 · AI/人工智能

Token 多模态推理大语言模型 AI Agent 上下文窗口 Gemini 2.0 o1-preview ChatGPT NVIDIA

正在加载视频...

视频章节

很多人把“AI Agent”当成新一轮营销热词，但在这场演讲中，Chip 用亲身经历、经典定义和真实工程难题解释了：Agent并不新，却异常困难；也正因为难，它才是通往下一代AI应用的关键路径。

Agent不是噱头：一位AI工程师讲清它为何难、却值得

很多人把“AI Agent”当成新一轮营销热词，但在这场演讲中，Chip 用亲身经历、经典定义和真实工程难题解释了：Agent并不新，却异常困难；也正因为难，它才是通往下一代AI应用的关键路径。

为什么大家都在说Agent，却又觉得它是“Buzzword”？

这场演讲一开始，Chip 就用一种略带自嘲的方式介绍自己：曾创办 AI 基础设施公司、与 NVIDIA 等公司合作、在斯坦福教过课，卖掉公司后“快乐地失业”。他原本准备了一套完整的 Agent 主题分享，结果发现前一天大家已经把基础内容讲得差不多了，于是临时推翻重来，专门为这次大会准备了一场“更新、更难、也更真实”的演讲。

他直面一个行业共识：今天只要讲 Agent，就“有义务先定义什么是 Agent”。而很多人之所以觉得 Agent 是噱头，核心原因并不是它没用，而是——大家真的还没把它做好。Chip 明确表态：“很多人觉得 Agent 的讨论都是 hype，但我不这么认为。我觉得有大量非常令人兴奋的用例。”

为了反驳“新概念炒作论”，他回到 80、90 年代的经典 AI 文献，引用 Stuart Russell 和 Peter Norvig 的定义：Agent 是“能够感知环境，并对环境采取行动的实体”。在这个定义下，Agent 不是新名词，甚至不神秘：下棋程序、能浏览互联网的 ChatGPT，都可以被视为 Agent。问题不在于概念，而在于工程实现的复杂性。

行动（Action）为何是Agent的灵魂，而不仅是“加工具”

Chip 强调，Agent 真正的分水岭在于“行动能力”，也就是模型是否能调用外部工具、API 或系统。原因非常现实：模型天生有局限。比如，所有大模型都有知识截止日期，这让它们难以回答实时问题；再比如，语言模型普遍不擅长数学。

他的解决思路非常工程化：与其强行训练模型掌握一切，不如让它“会用工具”。给模型一个新闻 API，它就能回答最新事件；给它一个计算器，它就不必硬算复杂数字。这并不是作弊，而是系统设计。

更有意思的是，多模态能力的扩展。在 Chip 的例子中，一个只能处理文本的语言模型，只要能调用图像描述工具，就能“间接理解图片”。模型先用工具生成图片描述，再基于描述推理和回答问题。通过行动，单模态模型被嵌入到更大的工作流中。

Chip 认为，这才是 Agent 真正令人兴奋的地方：“actions allowed you to embed models into the workflow”。模型不再是对话窗口，而是流程的一部分。

Agent真正的敌人：复杂度诅咒

当话题从“能做什么”转向“为什么还没普及”，Chip 给出了一个残酷但诚实的答案：Agent 太容易失败了。他称之为“复杂度诅咒”。无论是人还是 AI，任务越复杂，失败概率就越高。

在他观察到的大多数实际 Agent 项目中，能稳定完成超过五个步骤的任务“非常罕见”。这不是模型不聪明，而是系统一旦涉及多步推理、工具调用、状态管理，就会迅速失控。更可怕的是，在商业环境中，失败不是“回答错一句话”，而是可能造成“灾难性的业务后果”。

因此，一个核心工程问题变成了：你怎么知道你的 Agent 能处理多复杂的任务？不同业务、不同场景，对“复杂度”的定义完全不同，而这决定了 Agent 是否应该被放到生产环境。

好消息是，Chip 的基准测试显示，新一代模型在规划能力上确实在进步。他展示了多条性能曲线，来自 Gemini 2.0 Flash Thinking、o1-preview 等模型，曲线整体在向上移动，意味着模型能够解决的任务复杂度正在提升。这不是幻想，而是可观测的趋势。

工具调用与上下文：Agent工程中最被低估的成本

在复杂度之外，Chip 重点讲了两个极其“工程向”的难题：工具调用（tool use）和上下文管理。所谓工具调用，本质是把自然语言指令翻译成 API 调用序列。比如一句“根据这封客户邮件创建订单”，背后可能需要多个函数：提取客户 ID、解析订单信息、再调用创建订单接口。

Chip 给出的经验非常具体：工具一定要少、窄、定义清晰。他提到一位在大型搜索公司工作的朋友，他们给 Agent 的工具只有三到四个，每一个都“非常小、非常明确”。工具文档不仅要有参数说明，还要清楚返回值和边界条件。

而上下文问题，则是 Agent 的“隐形杀手”。除了系统指令、示例、工具文档，Agent 还要不断累积每一步执行结果、规划推理、反思判断。这些都会消耗上下文窗口和 token。任务越复杂，信息增长越快，成本和延迟也随之上升。

正如 Chip 所说：“we have been talking about context for a long time… but with agents， you see a lot more information。”Agent 不是一次调用，而是一条不断膨胀的信息链。

总结

Chip 的核心观点并不激进，却非常清醒：Agent 不是噱头，也不是灵丹妙药。它是一个历史悠久、工程复杂、失败率极高，但正在随着模型能力提升而逐步变得可行的方向。真正成熟的 Agent，不会来自炫技 Demo，而来自对复杂度的敬畏、对工具边界的克制，以及对上下文成本的精细管理。对读者而言，最大的启发或许是：在问“Agent 能做什么”之前，先问一句——“它会在第几步失败？”

关键词： AI Agent，工具调用，复杂度诅咒，上下文窗口，多模态

事实核查备注：演讲者：Chip（姓氏未在视频中提及）；引用定义来自 Stuart Russell 与 Peter Norvig；提及模型：Gemini 2.0 Flash Thinking、o1-preview；提及产品：ChatGPT；提及公司：NVIDIA；观点均来自 2025-02-22 AI Engineer 频道演讲内容。

返回文章列表