“Evals 已经坏了，但你还是得用”：一位工程师的冷水与真话

AI PM 编辑部 · 2026年06月06日 · 13 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你以为评测（Evals）能客观告诉你模型好坏，这场演讲会让你不太舒服。Ara Khan 直接抛出结论：Evals 本身是“坏的”，但你不仅不能扔，还必须继续用——只是用法完全不是你想的那样。

如果你以为评测（Evals）能客观告诉你模型好坏，这场演讲会让你不太舒服。Ara Khan 直接抛出结论：Evals 本身是“坏的”，但你不仅不能扔，还必须继续用——只是用法完全不是你想的那样。

演讲一开始，Ara Khan 就把矛头对准了整个行业对评测的迷信。他说，现在关于 Evals 的争论，基本可以分成两个“都不太对”的阵营：一类把评测当成绝对真理，另一类则因为看到评测不靠谱，干脆彻底否定它。

问题在于，这两种态度都经不起真实世界的检验。前者的问题是，把数字当结论，却忽略了模型上线后的复杂环境；后者的问题是，因为工具不完美就拒绝使用，等于在黑暗中开车。

他给了一个非常反直觉的判断：Evals 更像是“口味测试”而不是“物理测量”。它们并不告诉你真理，只反映了某一组人、某一组假设、某一组任务下的偏好。如果你把它当成客观排名，那你已经走偏了。

Ara Khan 并没有停留在批判层面，而是给出了几条他自己在实践中使用的“评测解读启发式”。这些不是算法，而是判断力。

第一条，是不要迷信单一评测结果。评测的设计本身就带有强烈的主观性，它测试的往往是“我们以为重要的能力”，而不一定是用户真正关心的能力。

第二条，是关于“保持最新”。很多团队会纠结：是不是一定要追最新、最全的评测？他的态度很现实——你当然想跟上，但并不总是必须。关键不在于新，而在于它是否贴近你自己的使用场景。

第三条，也是最难的一条：要警惕那些“看起来非常新、非常精准”的评测。越是精致的数字，越可能掩盖了不适用的前提。真正有价值的评测，需要你花时间去理解它的设计动机，而不是只看排行榜。

演讲中一个被很多人忽略、但极其现实的点是：评测不只是技术工具，它还是一种沟通工具。

Ara Khan 提出一个尖锐的问题：当你做一个 Eval 时，最终是“谁会被它安抚”？是你的工程团队、产品经理，还是外部的利益相关者？

很多评测流程之所以看起来繁琐、低效，并不是因为工程师不聪明，而是因为它们承担了“对外解释”的功能。数字在这里的作用，不是帮助模型变好，而是让决策变得可被接受。

理解这一点之后，你会发现，很多关于评测的争论，本质上并不是技术分歧，而是组织和决策结构的分歧。

在演讲后半段，他提到了一个来自学术界的有趣尝试：Terminal Bench。这个评测的核心思路很简单，但很有启发性——把模型放进一个更接近真实工作的环境里，让它完成一系列需要时间、上下文和耐心的任务。

在这种设置下，限制模型表现的，不再只是某一道题的正确率，而是整个流程中最慢、最不稳定的那一步。这种“系统级”的评测方式，至少在方向上，更贴近真实世界的使用体验。

当然，这并不是银弹。Ara Khan 也明确表示，这只是众多尝试中的一个。但它释放了一个信号：行业正在意识到，单点指标已经不够用了。

这场演讲真正有价值的地方，不在于否定 Evals，而在于帮你“降级期待”。评测不会告诉你模型的真相，但它依然可以成为你思考和决策的参考。

对 AI 从业者来说，最重要的 takeaway 是：不要再问“哪个模型分数最高”，而是问“这个评测，和我的真实问题有多接近”。如果你能说清楚这一点，Evals 就没有白做。

未来，评测不会消失，但它一定会从“排行榜崇拜”，走向更贴近场景、更强调判断力的工具。问题不在于 Evals 是否坏了，而在于你是否还在用旧的方式理解它。

关键词： Evals，模型评测， AI工程， Terminal Bench，实际应用

事实核查备注：需要核查：演讲者 Ara Khan 的具体背景；Terminal Bench 是否确由斯坦福相关团队提出；视频发布时间与演讲场合的准确性。