把失败变成特性:Zapier两年AI Agent评估血泪史

AI PM 编辑部 · 2025年06月30日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

Zapier团队分享了两年构建AI Agent平台的真实教训:难点不在模型,而在评估与反馈系统。本文还原他们如何把失败当作产品燃料,建立数据飞轮,并用工程化方法驯服不确定性的AI系统。

把失败变成特性:Zapier两年AI Agent评估血泪史

Zapier团队分享了两年构建AI Agent平台的真实教训:难点不在模型,而在评估与反馈系统。本文还原他们如何把失败当作产品燃料,建立数据飞轮,并用工程化方法驯服不确定性的AI系统。

为什么“能跑的Agent”离“可用的产品”差得很远

这一场分享一开始就打破了很多工程师的幻觉:做一个看起来能用的AI Agent,并不等于你已经有了一个可以交付给用户的产品。Zapier团队坦言,“building good AI agents is hard, and building a good platform for nontechnical people is even harder.” 难点并非只来自大模型的非确定性,更来自用户行为的不可预测性。

他们描述了一个几乎所有AI开发者都经历过的场景:用LangChain拉几个示例,改改Prompt,接上工具,和Agent聊几句,“it’s actually kind of working”。于是你部署上线,期待开始收割价值。但现实很快打脸——“reality has a surprising amount of detail”。当软件从确定性逻辑变成概率系统,原型只是起点,而不是终点。

Zapier最大的转折在于意识到:发布之后,工程责任会从“写功能”转向“建数据飞轮”。用户用得越多,失败越多;失败越多,越需要被系统性地记录、理解和转化为能力。这不是Bug,而是AI产品成长的燃料。

从第一天开始记录失败:评估体系不是后补工程

为什么评估如此重要?因为在AI Agent系统里,你几乎不可能通过代码审查预判所有问题。Zapier强调,收集“可行动反馈”的第一步,甚至不是建指标,而是彻底的代码埋点(instrumentation)。

他们建议,除了最基本的模型调用追踪,还必须记录工具调用、工具错误、前处理与后处理步骤。一个核心原则是:让每一次运行尽可能可复现,用于后续eval(评估)。如果日志结构和真实运行时一致,后面把线上失败转成离线评估会容易得多。

这里有一个非常工程化、但容易被忽略的洞见:评估不是实验室行为,而是生产系统的一部分。Zapier并不是等系统稳定后再做评估,而是把“失败可被理解”当成产品能力本身。这种思路,直接决定了后面所有改进是否可持续。

当用户不点“点赞”:如何从隐式行为里挖出真问题

显式用户反馈信号极高,但现实极其残酷:大多数用户不会点大拇指。Zapier团队直言,真正愿意留下反馈的,往往是在“they're angry and they want to tell you about it”。而即便如此,详细、可执行的反馈依然稀缺。

因此,他们不得不转向隐式反馈:用户中断流程、反复修改输入、放弃自动化、手动接管操作。这些行为本身就是失败信号。更有意思的是,Zapier开始使用大语言模型来自动识别和聚类“用户挫败感”,从大量交互日志中总结常见失败模式。

但他们也提醒,不要迷信AI本身。“expect a lot of tinkering”,LLM辅助分析需要不断调试,仍然要结合传统用户指标一起看。真正有价值的洞见,往往出现在多种信号交汇的地方,而不是单一分数。

失败模式清单,比单一指标更重要

当你已经理解单次运行发生了什么,下一步才是把混乱转化为路线图。Zapier建议,要么购买,要么自建LM Ops工具,因为内部工具“pay you massive dividends”。关键不是炫技,而是能否理解“cascading failure”——一次小偏差如何放大成整体失败。

他们最终形成了一套类似测试金字塔的评估层级:从单元级eval开始,逐步到更复杂的trajectory eval(轨迹评估)。但演讲者反复警告:不要过度依赖单元测试型评估,它们很容易让团队“overfitting to our existing models”。

为此,Zapier尝试了多模型对比(如Gemini Pro与Claude)、LM as a Judge,以及基于rubric(评分标准)的评估方式。所有方法都不完美,但组合起来,可以持续暴露新失败,而不是掩盖旧问题。

总结

在结尾,Zapier给出了一句极具分量的提醒:“Don’t obsess over metrics.” 评估的目的不是好看的分数,而是帮助你更快地发现失败、理解失败、修复失败。哪怕你构建了再精美的评估体系,“ultimate judge are your users”。AI Agent产品的进化路径,不是一次性设计出来的,而是在真实世界的反复碰撞中长出来的。


关键词: AI Agent, 评估体系, Zapier, 大语言模型, LM Ops

事实核查备注: 视频来源:AI Engineer;主题公司:Zapier;涉及产品与技术:LangChain、Claude、Gemini Pro、AI Agent、LLM、eval、LM Ops;关键原话包括“building good AI agents is hard”“reality has a surprising amount of detail”“Don’t obsess over metrics”“ultimate judge are your users”。