AI Agent的完美风暴:为何2025仍等不到那道闪电

AI PM 编辑部 · 2025年03月13日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

在AI能力指数级增长的2025年,真正可用的AI Agent却迟迟未落地。Lux Capital合伙人Grace Isford用一个订机票的失败案例,拆解了Agent系统中被忽视的“累积误差”,并给出了构建下一代AI Agent的五条现实路径。

AI Agent的完美风暴:为何2025仍等不到那道闪电

在AI能力指数级增长的2025年,真正可用的AI Agent却迟迟未落地。Lux Capital合伙人Grace Isford用一个订机票的失败案例,拆解了Agent系统中被忽视的“累积误差”,并给出了构建下一代AI Agent的五条现实路径。

指数级进步下的错觉:我们真的站在AI Agent时代了吗?

为什么在所有人都谈论“AI Agent元年”的2025年,我们却几乎用不到真正可靠的Agent?Grace Isford一开始就给出了背景:自2022年Stable Diffusion以来,AI能力呈现出“曲棍球杆式”增长,尤其是过去18个月。模型不仅更强,而且更高效、更便宜,参与者也从OpenAI、Anthropic扩展到xAI、Mistral、DeepSeek等。

2025年开年更像是“狂野模式”:5000亿美元的Stargate项目、OpenAI o3在ARC AGI Challenge上超过人类表现、DeepSeek R1发布引发英伟达股价波动、法国在AI峰会上高调回归。这一切让Grace直言:“This is the perfect storm for AI agents。”推理模型、测试时算力(test-time compute)、工程优化、开源与闭源差距缩小、全球级基础设施投资,几乎所有条件都到位了。

但她紧接着泼了一盆冷水:“我们看到了很多雷声,但还没有看到那道闪电。”在她的定义中,真正的AI Agent必须是“LLMs可以自主决定并执行行动的完全自治系统”,而现实距离这一点,仍然很远。

一个订机票的失败实验,揭开AI Agent的真实短板

为了说明“为什么Agent还不工作”,Grace没有用抽象理论,而是讲了一个极其具体的故事:让OpenAI Operator帮她订一张纽约飞旧金山的机票。需求并不简单——周一下午3点后出发、避开高峰、优先联合航空/捷蓝/美航、500美元以内、靠走道且远离厕所、午夜前抵达。

第一次,Agent跳转到了Kayak,却没订成票;第二次换成Skyscanner,虽然找到了航班,却是下午5:30从JFK起飞——对纽约人来说,这是“灾难级”的交通时间,而且还无法选座。Grace总结得很直接:“It didn’t really work out based on my prompts.”

这个例子之所以重要,是因为它暴露的不是模型能力不足,而是Agent系统的复杂性。订机票看似简单,实则涉及多重隐含约束、实时信息和个人偏好。一旦Agent要跨网站执行、做多步决策,这些复杂性就会被无限放大。

被低估的杀手:AI Agent中的“累积误差”

Grace认为,行业过于关注“幻觉”,却忽视了更致命的问题——微小但持续的累积误差。她系统性地拆解了四类错误:第一是决策错误,比如把“San Francisco”理解成秘鲁而非加州;第二是实现错误,例如验证码、权限或接口问题直接中断执行;第三是启发式错误,Agent根本没考虑JFK交通时间;第四是品味错误,比如忽略她“绝不坐737 Max”的个人偏好。

更隐蔽的是她提到的“完美悖论”:我们一边在做近乎魔法的事情,一边却对Agent“像人一样慢”或“想太久”感到不耐烦。即便第一次做对了,Agent的不可重复性也会迅速消耗用户信任。

她用一个简单但残酷的对比说明问题:一个99%准确率的Agent,连续执行50步后,整体成功率会跌到约60%;而95%的Agent则几乎不可用。“The point here is that something simple is actually really complex when errors compound.”这也是多Agent、多步骤系统面临的核心挑战。

五条现实路径:如何把Agent从演示变成生产系统

尽管问题严峻,Grace并不悲观。她给出了五条正在被验证的实践路径。第一是数据策展(data curation):Agent需要的不只是网页文本,而是多模态、专有且动态的数据,并从一开始就设计数据飞轮,让每次使用都反哺系统。

第二是评估(evals)。在数学等可验证领域很简单,但在“座位是否符合Grace偏好”这种非可验证场景中,评估必须引入人类反馈,甚至“vibe-based”的主观判断。第三是脚手架系统(scaffolding),通过基础设施与流程设计,防止单点失败级联扩散,必要时把人重新拉回决策链路。

第四是UX。Grace直言:“基础模型是当下贬值最快的资产。”真正拉开差距的是对用户工作流的理解。第五是多模态与新界面。她厌倦了聊天框,呼吁让Agent拥有“眼睛、耳朵、声音、触觉,甚至记忆”,通过语音、视觉、机器人等方式,重新定义人与AI的协作方式。

总结

Grace Isford的核心判断很清晰:2025年确实具备AI Agent爆发的所有外部条件,但真正的突破不会一蹴而就。阻碍Agent落地的不是单一模型能力,而是复杂系统中被忽视的累积误差。对从业者而言,机会不在于再包一层GPT,而在于数据、评估、系统设计、UX和多模态体验的长期打磨。那道闪电终会出现,但只会劈中真正理解复杂性的团队。


关键词: AI Agent, 累积误差, 推理模型, 多模态AI, 用户体验

事实核查备注: 演讲者:Grace Isford(Lux Capital合伙人);时间节点:Stable Diffusion发布于2022年8月;2025事件:Stargate项目(5000亿美元)、OpenAI o3、DeepSeek R1、法国AI峰会;案例产品:OpenAI Operator、Kayak、Skyscanner;技术概念:test-time compute、AI Agent定义、99% vs 95%准确率50步示例;涉及公司与产品:OpenAI、Anthropic、DeepSeek、Mistral、NVIDIA、Gemini、Perplexity、Codeium