为什么AI Agent总翻车？一位工程师的冷静诊断

AI PM 编辑部 · 2025年04月17日 · 19 阅读 · AI/人工智能

上下文窗口机器学习推理 AI Agent 幻觉 GPU 通用人工智能模型训练大语言模型 Claude 3.5 Sonnet

正在加载视频...

视频章节

在AI Agent被热烈追捧的当下，Sayash Kapoor给出了一次“泼冷水式”的演讲：Agent并没有我们想象中那么可靠。通过法律、科研和产品落地的真实失败案例，他指出问题不在模型能力，而在评估方法与可靠性工程。

为什么AI Agent总翻车？一位工程师的冷静诊断

在AI Agent被热烈追捧的当下，Sayash Kapoor给出了一次“泼冷水式”的演讲：Agent并没有我们想象中那么可靠。通过法律、科研和产品落地的真实失败案例，他指出问题不在模型能力，而在评估方法与可靠性工程。

Agent无处不在，但真正“好用”的并不多

这场大会的主题是“Agents at Work”，但Sayash Kapoor一开场就直言：“接下来18分钟，你们将听我讲为什么Agent现在并不好用。”这并不是唱反调，而是一个重要提醒——Agent已经在我们身边，但它们大多只是“勉强可用”。

他给出的定义很务实：当语言模型开始“控制系统流程”，而不只是单次问答时，它就已经是一个Agent。哪怕是ChatGPT、Claude这样的产品，也已经具备输入输出过滤、工具调用等“初级Agent”能力。从这个意义上说，Agent并不是未来概念，而是已经被广泛部署。

问题在于，行业中更宏大的想象——像《Her》里的全能助理——与现实之间存在巨大落差。很多野心勃勃的产品，在真实世界中迅速失败。Kapoor强调，他并不是在点名批评某家公司，而是想挑战一个更根本的问题：我们是否真的知道，怎样构建“对用户有用”的AI Agent？

第一重困境：Agent为什么这么难评估

Kapoor给出的第一个核心原因是：评估Agent本身就是一件极其困难的事。最直观的例子来自法律行业。美国初创公司DoNotPay曾宣称可以“完全自动化律师工作”，甚至悬赏100万美元，邀请律师在最高法院使用它实时辩护。几年后，现实给了它沉重一击——美国FTC以“性能宣传完全不实”为由，对其处以数十万美元罚款。

更值得警惕的是，这并非小公司的草率行为。LexisNexis和Westlaw这类老牌法律科技公司，也曾宣称其产品“无幻觉”。但斯坦福研究人员评估后发现：在至少六分之一、最高达三分之一的案例中，这些系统仍然出现幻觉，有时甚至完全颠倒原始法律文本的含义。

科研领域同样如此。Sakana AI声称构建了“自动化科研科学家”。Kapoor所在的普林斯顿团队为此建立了CoreBench基准，任务只是复现论文结果，甚至直接提供代码和数据。结果是：当前最好的Agent，成功率仍不足40%。他说得很直白：在这个基础上就宣称“AI即将自动化全部科学”，为时尚早。

静态基准的陷阱：高分不等于好用

第二个问题，是我们过度依赖静态基准（benchmark）。传统大模型评估，只需要输入字符串、输出字符串；但Agent要在环境中行动、调用工具、产生连锁反应，这让评估复杂度指数级上升。

Kapoor指出三个关键差异。第一，Agent评估需要构建“可交互环境”，远比文本任务困难。第二，成本不再有上限——Agent可能递归调用子Agent，形成无限循环，评估成本本身必须成为指标。第三，Agent往往是“定制化”的，一个代码Agent，根本无法用网页Agent的基准来评估。

普林斯顿为此推出了Agent排行榜，引入“准确率+成本”的帕累托前沿。在CoreBench上，Claude 3.5 Sonnet与OpenAI的o1模型性能接近，但前者运行成本约57美元，后者高达664美元。Kapoor的评价非常工程化：“即便o1高几个百分点，大多数工程师也会选择便宜10倍、表现差不多的模型。”

能力≠可靠性：90%和99.999%之间的鸿沟

演讲中最重要、也最容易被忽视的观点，是对“能力”和“可靠性”的区分。Kapoor解释说，能力指的是模型“在某些尝试中能做到什么”，例如pass@K；而可靠性，指的是“每一次都做对”。

现实产品关心的，永远是后者。他举了Humane Pin和Rabbit R1的失败作为例子：如果一个个人助理只有80%的概率正确下单，那对用户来说就是灾难性失败。“语言模型已经很有能力了，但能力并不自动转化为可靠体验。”

有人提出用“验证器”（verifier）来解决可靠性问题，类似单元测试。但Kapoor展示了反例：HumanEval和MBPP这两个主流代码基准，都存在假阳性。模型可能输出错误代码，却依然通过测试。一旦考虑这些错误，推理规模越大，整体性能反而会下降。验证器并不是银弹。

真正的出路：把AI工程当作可靠性工程

在结尾，Kapoor给出了一个清晰的转向建议：AI Agent的问题，本质上是系统设计问题，而不是单纯的建模问题。工程师需要学会在“内在随机”的组件之上，构建稳定系统。

他用ENIAC计算机作类比。1946年，这台拥有1.7万个真空管的机器，最初一半时间都在宕机。工程师花了两年时间，专注解决可靠性，而不是算得更快。只有这样，计算机才真正变得“可用”。

Kapoor的金句是：“AI工程师真正的工作，不只是创造酷炫产品，而是修复可靠性问题。”他认为，下一代AI工程师，需要一次明确的“可靠性思维转变”，才能让Agent真正走进现实世界。

总结

这场演讲的价值，不在于唱衰AI Agent，而在于精准指出它们为什么频繁翻车。评估困难、基准误导、能力与可靠性的混淆，是当前行业绕不开的三座大山。对工程师来说，最大的启发或许是：当模型能力已足够强时，真正拉开差距的，将是系统可靠性。

关键词： AI Agent，可靠性工程，大语言模型，评估基准，幻觉

事实核查备注：视频来源：Sayash Kapoor 在 AI Engineer 频道演讲《Building and evaluating AI Agents》。案例包括 DoNotPay 被 FTC 罚款；LexisNexis、Westlaw 被斯坦福评估存在幻觉；CoreBench 复现率 <40%；Claude 3.5 Sonnet 成本约57美元，OpenAI o1 约664美元；引用产品 Humane Pin、Rabbit R1、Devin。

返回文章列表