把失败变成特性：Zapier两年AI Agent评估血泪史

AI PM 编辑部 · 2025年06月30日 · 22 阅读 · AI/人工智能

推理 AI Agent 提示工程大语言模型 LangChain Claude Gemini Pro

正在加载视频...

视频章节

Zapier团队分享了两年构建AI Agent平台的真实教训：难点不在模型，而在评估与反馈系统。本文还原他们如何把失败当作产品燃料，建立数据飞轮，并用工程化方法驯服不确定性的AI系统。

把失败变成特性：Zapier两年AI Agent评估血泪史

Zapier团队分享了两年构建AI Agent平台的真实教训：难点不在模型，而在评估与反馈系统。本文还原他们如何把失败当作产品燃料，建立数据飞轮，并用工程化方法驯服不确定性的AI系统。

为什么“能跑的Agent”离“可用的产品”差得很远

这一场分享一开始就打破了很多工程师的幻觉：做一个看起来能用的AI Agent，并不等于你已经有了一个可以交付给用户的产品。Zapier团队坦言，“building good AI agents is hard， and building a good platform for nontechnical people is even harder.” 难点并非只来自大模型的非确定性，更来自用户行为的不可预测性。

他们描述了一个几乎所有AI开发者都经历过的场景：用LangChain拉几个示例，改改Prompt，接上工具，和Agent聊几句，“it’s actually kind of working”。于是你部署上线，期待开始收割价值。但现实很快打脸——“reality has a surprising amount of detail”。当软件从确定性逻辑变成概率系统，原型只是起点，而不是终点。

Zapier最大的转折在于意识到：发布之后，工程责任会从“写功能”转向“建数据飞轮”。用户用得越多，失败越多；失败越多，越需要被系统性地记录、理解和转化为能力。这不是Bug，而是AI产品成长的燃料。

从第一天开始记录失败：评估体系不是后补工程

为什么评估如此重要？因为在AI Agent系统里，你几乎不可能通过代码审查预判所有问题。Zapier强调，收集“可行动反馈”的第一步，甚至不是建指标，而是彻底的代码埋点（instrumentation）。

他们建议，除了最基本的模型调用追踪，还必须记录工具调用、工具错误、前处理与后处理步骤。一个核心原则是：让每一次运行尽可能可复现，用于后续eval（评估）。如果日志结构和真实运行时一致，后面把线上失败转成离线评估会容易得多。

这里有一个非常工程化、但容易被忽略的洞见：评估不是实验室行为，而是生产系统的一部分。Zapier并不是等系统稳定后再做评估，而是把“失败可被理解”当成产品能力本身。这种思路，直接决定了后面所有改进是否可持续。

当用户不点“点赞”：如何从隐式行为里挖出真问题

显式用户反馈信号极高，但现实极其残酷：大多数用户不会点大拇指。Zapier团队直言，真正愿意留下反馈的，往往是在“they're angry and they want to tell you about it”。而即便如此，详细、可执行的反馈依然稀缺。

因此，他们不得不转向隐式反馈：用户中断流程、反复修改输入、放弃自动化、手动接管操作。这些行为本身就是失败信号。更有意思的是，Zapier开始使用大语言模型来自动识别和聚类“用户挫败感”，从大量交互日志中总结常见失败模式。

但他们也提醒，不要迷信AI本身。“expect a lot of tinkering”，LLM辅助分析需要不断调试，仍然要结合传统用户指标一起看。真正有价值的洞见，往往出现在多种信号交汇的地方，而不是单一分数。

失败模式清单，比单一指标更重要

当你已经理解单次运行发生了什么，下一步才是把混乱转化为路线图。Zapier建议，要么购买，要么自建LM Ops工具，因为内部工具“pay you massive dividends”。关键不是炫技，而是能否理解“cascading failure”——一次小偏差如何放大成整体失败。

他们最终形成了一套类似测试金字塔的评估层级：从单元级eval开始，逐步到更复杂的trajectory eval（轨迹评估）。但演讲者反复警告：不要过度依赖单元测试型评估，它们很容易让团队“overfitting to our existing models”。

为此，Zapier尝试了多模型对比（如Gemini Pro与Claude）、LM as a Judge，以及基于rubric（评分标准）的评估方式。所有方法都不完美，但组合起来，可以持续暴露新失败，而不是掩盖旧问题。

总结

在结尾，Zapier给出了一句极具分量的提醒：“Don’t obsess over metrics.” 评估的目的不是好看的分数，而是帮助你更快地发现失败、理解失败、修复失败。哪怕你构建了再精美的评估体系，“ultimate judge are your users”。AI Agent产品的进化路径，不是一次性设计出来的，而是在真实世界的反复碰撞中长出来的。

关键词： AI Agent，评估体系， Zapier，大语言模型， LM Ops

事实核查备注：视频来源：AI Engineer；主题公司：Zapier；涉及产品与技术：LangChain、Claude、Gemini Pro、AI Agent、LLM、eval、LM Ops；关键原话包括“building good AI agents is hard”“reality has a surprising amount of detail”“Don’t obsess over metrics”“ultimate judge are your users”。

返回文章列表