从“感觉不错”到可量化:Doug Guthrie谈AI Evals的飞轮方法

AI PM 编辑部 · 2025年06月27日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这场分享并不教你某个花哨的新模型,而是回答一个更现实的问题:当AI系统进入真实业务后,团队该如何知道“它真的在变好”?Doug Guthrie结合Braintrust的实践,系统讲解了Evals的组成、落地方式,以及如何形成持续改进的飞轮。

从“感觉不错”到可量化:Doug Guthrie谈AI Evals的飞轮方法

这场分享并不教你某个花哨的新模型,而是回答一个更现实的问题:当AI系统进入真实业务后,团队该如何知道“它真的在变好”?Doug Guthrie结合Braintrust的实践,系统讲解了Evals的组成、落地方式,以及如何形成持续改进的飞轮。

为什么Evals不是“可选项”,而是AI应用的地基

很多团队在做AI应用时,都会经历一个阶段:Demo效果很好,上线后却问题频出。Doug Guthrie在一开始就点出症结——如果没有系统性的评估(evals),你其实并不知道模型是在进步还是在退化。从业务角度看,这不是技术洁癖,而是风险控制。

他明确把Evals和三个关键词绑定在一起:“Quality, reliability, correctness.” 在他的语境里,质量不只是回答是否“像人”,而是是否稳定地产生对用户有价值的结果;可靠性指的是在不同输入、不同时间尺度下行为是否一致;而正确性,则是能否在业务定义的边界内少犯致命错误。

Doug反复强调,Evals的价值在于把主观感受变成可追踪的信号。没有这些信号,团队只能凭直觉迭代,而一旦系统复杂度上来,直觉几乎一定会失效。这也是为什么他认为Evals不是后期优化,而是从一开始就该嵌入开发流程的“地基”。

一个关键隐喻:评估驱动的“飞轮效应”

在分享中,Doug多次提到一个他非常看重的概念——“flywheel effect”。他的原话是,通过Evals,“creating this really great flywheel effect”。这个飞轮指的不是某个具体工具,而是一种工作方式。

飞轮的起点,是明确你在评估什么。不是泛泛地问“好不好”,而是把目标拆解成可评分的维度。接着,这些评分会反过来影响你如何改prompt、换模型、或者增加后处理逻辑。当这些改动再次进入Evals体系时,你能清楚看到它们对指标的影响。

真正有意思的地方在于,这个过程一旦跑顺,就会自我加速。团队不再为“要不要上线这个改动”争论不休,而是看数据说话。Doug提到,这种飞轮不仅帮助工程团队,也让产品和业务方更容易参与决策,因为大家讨论的是同一套可视化的结果,而不是各自的感受。

拆解Evals的组成:不只是一个分数

在技术层面,Doug花了相当篇幅解释“一个eval到底由什么构成”。他强调,Evals并不是简单地给模型打个总分,而是由多种组件组合而成。

首先是测试集的设计,也就是你用什么样的真实或近似真实的输入去“拷问”系统。接着是评分方式:可以是规则化的、基于prompt的判断,也可以在必要时引入更定制化的评分逻辑。Doug特别提醒,如果某些维度对业务至关重要,就值得投入精力去“build maybe that more custom score”。

此外,他还提到Evals和开发工具链的结合。例如在分享后段,他展示了如何通过GitHub Action,把评估自动化地跑进CI流程中。这样一来,每一次代码或prompt的改动,都会触发一轮评估,避免问题在不知不觉中被带到生产环境。

从实验到生产:让评估在线上持续发生

很多团队会在离线阶段做评估,却在上线后“断档”。Doug认为这是一个常见但危险的断裂点。因为真实用户的行为,往往和你预想的测试集并不完全一致。

在后半部分,他把话题明确引向生产环境:如何“apply these scores to the things that are happening online”。这意味着,评估不再只是实验室里的工具,而是和线上流量、真实请求绑定在一起。通过持续收集和对比这些分数,团队可以观察模型在“last month, six months, whatever it is that we're tracking”里的变化趋势。

最终,Doug又回到了开头提到的飞轮。当线上数据不断回流到评估体系中,评估结果再反过来指导下一轮构建时,AI应用才真正进入一种可控、可进化的状态。这也是他在结尾再次强调的——这是他们“that flywheel effect uh that we want”。

总结

Doug Guthrie的这场分享,价值不在于某个具体工具或API,而在于一种清醒的工程观:AI系统只有在可评估的前提下,才是可迭代的。通过把质量、可靠性和正确性拆解成持续运行的Evals,并把它们嵌入从开发到生产的全过程,团队才能建立真正的改进飞轮。对任何想把AI变成长期产品的人来说,这是一条绕不过去的路径。


关键词: Evals, AI应用评估, 飞轮效应, CI自动化, 生产环境监控

事实核查备注: 演讲者:Doug Guthrie;公司:Braintrust;关键词原话包括“Quality, reliability, correctness”“creating this really great flywheel effect”“apply these scores to the things that are happening online”;工具示例:GitHub Action(用于评估自动化);内容基于YouTube视频《Evals 101 — Doug Guthrie, Braintrust》