为什么AI Agent总翻车?一位工程师的冷静诊断

AI PM 编辑部 · 2025年04月17日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

在AI Agent被热烈追捧的当下,Sayash Kapoor给出了一次“泼冷水式”的演讲:Agent并没有我们想象中那么可靠。通过法律、科研和产品落地的真实失败案例,他指出问题不在模型能力,而在评估方法与可靠性工程。

为什么AI Agent总翻车?一位工程师的冷静诊断

在AI Agent被热烈追捧的当下,Sayash Kapoor给出了一次“泼冷水式”的演讲:Agent并没有我们想象中那么可靠。通过法律、科研和产品落地的真实失败案例,他指出问题不在模型能力,而在评估方法与可靠性工程。

Agent无处不在,但真正“好用”的并不多

这场大会的主题是“Agents at Work”,但Sayash Kapoor一开场就直言:“接下来18分钟,你们将听我讲为什么Agent现在并不好用。”这并不是唱反调,而是一个重要提醒——Agent已经在我们身边,但它们大多只是“勉强可用”。

他给出的定义很务实:当语言模型开始“控制系统流程”,而不只是单次问答时,它就已经是一个Agent。哪怕是ChatGPT、Claude这样的产品,也已经具备输入输出过滤、工具调用等“初级Agent”能力。从这个意义上说,Agent并不是未来概念,而是已经被广泛部署。

问题在于,行业中更宏大的想象——像《Her》里的全能助理——与现实之间存在巨大落差。很多野心勃勃的产品,在真实世界中迅速失败。Kapoor强调,他并不是在点名批评某家公司,而是想挑战一个更根本的问题:我们是否真的知道,怎样构建“对用户有用”的AI Agent?

第一重困境:Agent为什么这么难评估

Kapoor给出的第一个核心原因是:评估Agent本身就是一件极其困难的事。最直观的例子来自法律行业。美国初创公司DoNotPay曾宣称可以“完全自动化律师工作”,甚至悬赏100万美元,邀请律师在最高法院使用它实时辩护。几年后,现实给了它沉重一击——美国FTC以“性能宣传完全不实”为由,对其处以数十万美元罚款。

更值得警惕的是,这并非小公司的草率行为。LexisNexis和Westlaw这类老牌法律科技公司,也曾宣称其产品“无幻觉”。但斯坦福研究人员评估后发现:在至少六分之一、最高达三分之一的案例中,这些系统仍然出现幻觉,有时甚至完全颠倒原始法律文本的含义。

科研领域同样如此。Sakana AI声称构建了“自动化科研科学家”。Kapoor所在的普林斯顿团队为此建立了CoreBench基准,任务只是复现论文结果,甚至直接提供代码和数据。结果是:当前最好的Agent,成功率仍不足40%。他说得很直白:在这个基础上就宣称“AI即将自动化全部科学”,为时尚早。

静态基准的陷阱:高分不等于好用

第二个问题,是我们过度依赖静态基准(benchmark)。传统大模型评估,只需要输入字符串、输出字符串;但Agent要在环境中行动、调用工具、产生连锁反应,这让评估复杂度指数级上升。

Kapoor指出三个关键差异。第一,Agent评估需要构建“可交互环境”,远比文本任务困难。第二,成本不再有上限——Agent可能递归调用子Agent,形成无限循环,评估成本本身必须成为指标。第三,Agent往往是“定制化”的,一个代码Agent,根本无法用网页Agent的基准来评估。

普林斯顿为此推出了Agent排行榜,引入“准确率+成本”的帕累托前沿。在CoreBench上,Claude 3.5 Sonnet与OpenAI的o1模型性能接近,但前者运行成本约57美元,后者高达664美元。Kapoor的评价非常工程化:“即便o1高几个百分点,大多数工程师也会选择便宜10倍、表现差不多的模型。”

能力≠可靠性:90%和99.999%之间的鸿沟

演讲中最重要、也最容易被忽视的观点,是对“能力”和“可靠性”的区分。Kapoor解释说,能力指的是模型“在某些尝试中能做到什么”,例如pass@K;而可靠性,指的是“每一次都做对”。

现实产品关心的,永远是后者。他举了Humane Pin和Rabbit R1的失败作为例子:如果一个个人助理只有80%的概率正确下单,那对用户来说就是灾难性失败。“语言模型已经很有能力了,但能力并不自动转化为可靠体验。”

有人提出用“验证器”(verifier)来解决可靠性问题,类似单元测试。但Kapoor展示了反例:HumanEval和MBPP这两个主流代码基准,都存在假阳性。模型可能输出错误代码,却依然通过测试。一旦考虑这些错误,推理规模越大,整体性能反而会下降。验证器并不是银弹。

真正的出路:把AI工程当作可靠性工程

在结尾,Kapoor给出了一个清晰的转向建议:AI Agent的问题,本质上是系统设计问题,而不是单纯的建模问题。工程师需要学会在“内在随机”的组件之上,构建稳定系统。

他用ENIAC计算机作类比。1946年,这台拥有1.7万个真空管的机器,最初一半时间都在宕机。工程师花了两年时间,专注解决可靠性,而不是算得更快。只有这样,计算机才真正变得“可用”。

Kapoor的金句是:“AI工程师真正的工作,不只是创造酷炫产品,而是修复可靠性问题。”他认为,下一代AI工程师,需要一次明确的“可靠性思维转变”,才能让Agent真正走进现实世界。

总结

这场演讲的价值,不在于唱衰AI Agent,而在于精准指出它们为什么频繁翻车。评估困难、基准误导、能力与可靠性的混淆,是当前行业绕不开的三座大山。对工程师来说,最大的启发或许是:当模型能力已足够强时,真正拉开差距的,将是系统可靠性。


关键词: AI Agent, 可靠性工程, 大语言模型, 评估基准, 幻觉

事实核查备注: 视频来源:Sayash Kapoor 在 AI Engineer 频道演讲《Building and evaluating AI Agents》。案例包括 DoNotPay 被 FTC 罚款;LexisNexis、Westlaw 被斯坦福评估存在幻觉;CoreBench 复现率 <40%;Claude 3.5 Sonnet 成本约57美元,OpenAI o1 约664美元;引用产品 Humane Pin、Rabbit R1、Devin。