“Evals 已经坏了,但你还是得用”:一位工程师的冷水与真话

AI PM 编辑部 · 2026年06月06日 · 13 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你以为评测(Evals)能客观告诉你模型好坏,这场演讲会让你不太舒服。Ara Khan 直接抛出结论:Evals 本身是“坏的”,但你不仅不能扔,还必须继续用——只是用法完全不是你想的那样。

“Evals 已经坏了,但你还是得用”:一位工程师的冷水与真话

如果你以为评测(Evals)能客观告诉你模型好坏,这场演讲会让你不太舒服。Ara Khan 直接抛出结论:Evals 本身是“坏的”,但你不仅不能扔,还必须继续用——只是用法完全不是你想的那样。

先泼一盆冷水:几乎所有人都在“错误地相信”Evals

演讲一开始,Ara Khan 就把矛头对准了整个行业对评测的迷信。他说,现在关于 Evals 的争论,基本可以分成两个“都不太对”的阵营:一类把评测当成绝对真理,另一类则因为看到评测不靠谱,干脆彻底否定它。

问题在于,这两种态度都经不起真实世界的检验。前者的问题是,把数字当结论,却忽略了模型上线后的复杂环境;后者的问题是,因为工具不完美就拒绝使用,等于在黑暗中开车。

他给了一个非常反直觉的判断:Evals 更像是“口味测试”而不是“物理测量”。它们并不告诉你真理,只反映了某一组人、某一组假设、某一组任务下的偏好。如果你把它当成客观排名,那你已经走偏了。

真正有用的不是分数,而是你如何“解读”它

Ara Khan 并没有停留在批判层面,而是给出了几条他自己在实践中使用的“评测解读启发式”。这些不是算法,而是判断力。

第一条,是不要迷信单一评测结果。评测的设计本身就带有强烈的主观性,它测试的往往是“我们以为重要的能力”,而不一定是用户真正关心的能力。

第二条,是关于“保持最新”。很多团队会纠结:是不是一定要追最新、最全的评测?他的态度很现实——你当然想跟上,但并不总是必须。关键不在于新,而在于它是否贴近你自己的使用场景。

第三条,也是最难的一条:要警惕那些“看起来非常新、非常精准”的评测。越是精致的数字,越可能掩盖了不适用的前提。真正有价值的评测,需要你花时间去理解它的设计动机,而不是只看排行榜。

评测的真正功能:安抚谁?说服谁?

演讲中一个被很多人忽略、但极其现实的点是:评测不只是技术工具,它还是一种沟通工具。

Ara Khan 提出一个尖锐的问题:当你做一个 Eval 时,最终是“谁会被它安抚”?是你的工程团队、产品经理,还是外部的利益相关者?

很多评测流程之所以看起来繁琐、低效,并不是因为工程师不聪明,而是因为它们承担了“对外解释”的功能。数字在这里的作用,不是帮助模型变好,而是让决策变得可被接受。

理解这一点之后,你会发现,很多关于评测的争论,本质上并不是技术分歧,而是组织和决策结构的分歧。

从 Terminal Bench 看“更接近现实”的评测尝试

在演讲后半段,他提到了一个来自学术界的有趣尝试:Terminal Bench。这个评测的核心思路很简单,但很有启发性——把模型放进一个更接近真实工作的环境里,让它完成一系列需要时间、上下文和耐心的任务。

在这种设置下,限制模型表现的,不再只是某一道题的正确率,而是整个流程中最慢、最不稳定的那一步。这种“系统级”的评测方式,至少在方向上,更贴近真实世界的使用体验。

当然,这并不是银弹。Ara Khan 也明确表示,这只是众多尝试中的一个。但它释放了一个信号:行业正在意识到,单点指标已经不够用了。

总结

这场演讲真正有价值的地方,不在于否定 Evals,而在于帮你“降级期待”。评测不会告诉你模型的真相,但它依然可以成为你思考和决策的参考。

对 AI 从业者来说,最重要的 takeaway 是:不要再问“哪个模型分数最高”,而是问“这个评测,和我的真实问题有多接近”。如果你能说清楚这一点,Evals 就没有白做。

未来,评测不会消失,但它一定会从“排行榜崇拜”,走向更贴近场景、更强调判断力的工具。问题不在于 Evals 是否坏了,而在于你是否还在用旧的方式理解它。


关键词: Evals, 模型评测, AI工程, Terminal Bench, 实际应用

事实核查备注: 需要核查:演讲者 Ara Khan 的具体背景;Terminal Bench 是否确由斯坦福相关团队提出;视频发布时间与演讲场合的准确性。