为什么AI项目80%的时间都花在评估上?

AI PM 编辑部 · 2025年07月29日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。

为什么AI项目80%的时间都花在评估上?

前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。

从“没人想做测试”到“所有人都离不开评估”

这场工作坊一开始并没有直接进入技术细节,而是从一个略显尴尬却极其真实的问题开始:“你们为什么会来这里?”举手调查的结果并不意外:做过eval的人几乎都“被折磨过”,而没做过的人,则是“不知道该怎么开始”。

一位来自QA背景的工程师给出了全场最有共鸣的对比:在传统软件时代,测试大概占开发时间的30%,已经让工程师怨声载道;而在AI系统中,验证和评估可能要吃掉80%的时间。“人们更不开心了,但又找不到捷径。”

David和他的合作者反复强调,这并不是某个团队的问题,而是范式变化带来的必然结果。机器学习依赖训练数据,而AI Agent依赖评估系统提供来自真实世界的反馈。“Agent如果没有eval,就像模型没有训练数据。”他用几乎是教科书式的一句话点明了评估的地位。

更残酷的是,AI的评估天然是主观的、定制化的、概率性的。你很难定义一个唯一的“正确答案”,也很难复用别人的指标。这意味着:在AI时代,评估不再是可选项,而是所有人都必须面对的核心工程问题。

在Google做搜索:他们不是只有几个指标,而是300个

真正让这场分享与众不同的,是David反复引用的Google内部经验。他和合作者在Google Search工作了十多年,而搜索本身就是一个高度随机(stochastic)的系统:同一个查询,不同用户、不同上下文,结果好坏并不绝对。

在Google,评估被称为“质量(Quality)”,而不是简单的测试。David提到一个很多人第一次听都会震惊的数字:“Search有大概300个指标。”这并不是为了炫技,而是因为复杂系统无法被单一指标描述。

他们的做法是不断建立benchmark,用尽一个benchmark的价值,再进入下一个。“评估不是‘做完一次就结束’,而是开发流程的一部分。”这也是他们如今与客户合作时复用的方法论:先搭建基准,再用人类和真实用户数据去校准指标。

David特别强调了一点:指标的复杂性是可以无限扩展的,但前提是方法论正确。不是一开始就设计一个完美体系,而是随着系统演进,不断增加、修正、淘汰指标。这种思路,直接影响了他们今天提出的“评分系统”概念。

不要迷信“LLM当裁判”:为什么自动评估这么难

几乎所有团队都有一个共同的愿望:自动评估。没有人希望让人类一条条去看模型输出。但现实很快泼了冷水。

现场有观众提到,他们尝试用大模型来评估大模型,但“并不准确,最后还是得人工”。David的回应相当直接:这不是你的问题,而是模型的设计目标决定的。“这些模型被设计成有创造力的,而你不希望一个裁判有创造力。”

在工作坊中,他们梳理了常见的评估路径:从最原始的vibe testing(凭感觉试一试),到昂贵的人类评估,再到代码式的可验证评估,最后才是LM-as-a-Judge。但越往后,复杂度和不确定性也越高。

因此,他们提出一个务实的原则:不要一开始就追求“全面正确”。相反,先找到5到10个你“确定与好坏强相关”的简单信号。这些信号可能很粗糙,但足够稳定。评估体系,是在调试和失败中慢慢长出来的,而不是设计出来的。

评分系统:把评估变成一个可进化的工程系统

整场工作坊的核心概念,是他们称之为“scoring system(评分系统)”的方法论。David给了一个极具Google风格的解释:“Ranking is scoring, scoring is eval。”

评分系统的底层,是尽可能客观、可验证的信号;往上,逐步叠加更主观、更贴近用户体验的指标。它的目标不是给出一个绝对分数,而是用于比较、排序和决策。

这种系统最大的价值在于反馈闭环。一旦你有了稳定的评分系统,很多事情都会变得“自动化”:你可以用它筛选合成数据,用它驱动prompt优化工具(如DSPI),甚至为微调或强化学习提供信号。David说得非常直白:“如果你有很好的eval,你甚至都不需要自己写prompt了。”

更重要的是,评分系统承载了真正的领域知识。代码、模型、工具都会快速变化,但评估标准一旦建立,就会成为系统中最持久、最有价值的资产。

一个反直觉的结论:评估才是AI工程的核心产出

在分享后半段,David抛出了一个几乎反直觉的判断:未来AI工程师,花最多时间的地方不应该是“构建”,而是“评估”。

“Eval is actually the only place where domain knowledge is going to live.”这句话在现场引发了不少点头。模型会越来越通用,工具会越来越自动化,但什么是“好”,什么是“对用户有价值”,只能通过评估体系被固化下来。

这也是为什么Google当年几乎所有质量检查都是在线运行的:评估不是发布前的门槛,而是系统运行的一部分。从反馈按钮、用户行为,到在线实验,eval贯穿了整个生命周期。

这场工作坊并没有承诺“解决你所有的评估问题”,相反,它不断提醒大家:这是一个长期、艰难、但不可回避的工程现实。而理解这一点,本身就是最大的收获。

总结

这场工作坊真正传递的,并不是某个工具或框架,而是一种来自Google Search时代的工程世界观:在随机、复杂的AI系统中,评估不是附属品,而是核心基础设施。不要追求一步到位的完美指标,而要构建能不断进化的评分系统。对今天的AI团队来说,谁先把eval当成“产品”来做,谁就更有可能构建出长期可控、可优化的系统。


关键词: AI评估, 评分系统, Google Search, AI Agent, LLM Eval

事实核查备注: David Karam:前Google Search工程师;Google Search使用约300个指标进行评估;提出“scoring system”方法论;提到vibe testing、LM-as-a-Judge、DSPI;评估在AI开发中可能占用约80%时间(来自现场观众表述)。