AI基准测试为何失灵:一场被“赢麻了”的游戏

AI PM 编辑部 · 2025年06月03日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这篇文章还原了Darius Emrani对AI基准测试体系的犀利批判:为什么这些排行榜能左右数十亿美元,却越来越不可信;大厂常用的三种“赢法”是什么;以及为什么真正想做出好产品的团队,应该停止追逐榜单,转而构建属于自己的评估体系。

AI基准测试为何失灵:一场被“赢麻了”的游戏

这篇文章还原了Darius Emrani对AI基准测试体系的犀利批判:为什么这些排行榜能左右数十亿美元,却越来越不可信;大厂常用的三种“赢法”是什么;以及为什么真正想做出好产品的团队,应该停止追逐榜单,转而构建属于自己的评估体系。

为什么一组分数,能决定数十亿美元的走向

理解这场“基准测试游戏”为何如此扭曲,必须先看清它的权力结构。Darius Emrani一开场就亮出自己的背景:他曾在Waymo和Uber ATG为自动驾驶系统做评估,在SpaceX评估火箭系统——这些被他称为“最早的AI Agent”。如今,他的公司Scorecard为法律、医疗和金融领域的AI团队做评估系统。正因为见过太多真实世界的评测失败,他才对当下的大模型基准测试格外警惕。

在他看来,基准测试本质上由三部分组成:模型、测试集和评分指标。但关键洞见在于:一个“benchmark”其实是大量单点评测的打包产物,它通过统一问题和评分方式,让不同模型看起来可以被简单比较。“就像SAT考试,同样的题目、同样的评分,只是考生不同。”问题在于,这些分数早已不只是学术指标,而是直接影响投资决策、企业采购和开发者心智。

Darius引用了一句话来点破风险:“现在,数十亿美元的投资,正在被这些分数评估。”当OpenAI或Anthropic在榜单上登顶,影响的不只是融资,而是企业合同、开发者生态和市场主导权。一次Andre Karpathy的转发,就足以改变整个行业的注意力分布。在这样的激励下,基准测试从测量工具,变成了争夺战的靶心。

第一种赢法:把‘最好’对‘标准’,却叫公平比较

当一场比赛的奖品足够大,人们自然会“优化规则”。Darius列举的第一个常见手段,是制造“苹果对橘子”的比较,却包装成客观结果。

他以xAI发布Grok 3基准成绩为例。图表看起来漂亮,结论也简单:全面领先。但很快,社区工程师发现了问题——xAI拿的是自己模型的最佳配置,却拿对手模型的标准配置来对比。这就好比“你开着加了氮气的跑车,去和别人原厂车比速度”。

一个关键细节在于,xAI没有展示OpenAI o3模型在“consensus@64”下的性能。所谓consensus@64,是指同一个问题运行模型64次,再取共识答案。这通常能显著提高准确率,但代价是成本暴涨64倍。Darius并不否认成本问题,而是指出:如果你要宣称性能领先,就必须“best vs best”,或者“standard vs standard”,而不是选择性展示。

他强调,这类选择性报告并不罕见,只是“冰山一角”。当榜单变成营销工具,配置选择本身就成了一种隐蔽却有效的操控手段。

第二、第三种赢法:提前看题,或干脆讨好评委

第二种手段更具争议:对测试题的“特权访问”。Frontier Math原本被宣传为极难、严格保密的高阶数学基准,但现实却更复杂。OpenAI为该项目提供资金,并获得了整个数据集的访问权限。虽然双方有口头约定不用于训练,OpenAI员工也称其为“强隔离评测集”,但Darius直言:“即便一切合规,这在观感上就是一个信任问题。”

问题不在于是否作弊,而在于:当被评估者资助评估体系,并能在公开验证前率先公布成绩,基准测试的公信力就已经受损。

而最微妙、也最危险的,是第三种手段:优化风格,而不是正确性。Darius分享了一个极具冲击力的例子:Meta在LM Arena中,实际上提交了27个不同版本的Llama 4 Maverick,只为找到最“讨喜”的表现形式。

在一次谜题测试中,题目答案是3.145。Claude给出了简洁、正确的回答,而Llama的一个私有版本则输出了一段冗长、充满emoji、语气讨好的胡言乱语。结果?后者赢了。原因很简单:人类评审更容易被“健谈”和“友好”打动。Darius一针见血地总结:“我们不是在测谁更准确,而是在测谁更迷人。”

当基准测试本身失效,行业该如何自救

所有这些问题,并非偶然,而是激励机制的必然结果。Darius用Goodhart定律点破本质:“当一个指标成为目标,它就不再是一个好指标。”基准测试一旦与市值、融资和市场地位深度绑定,就注定会被反向优化。

更值得警惕的是,这并非少数人的批评。Darius引用了多位基准测试创建者和行业领袖的原话。Andrej Karpathy直言:“我感觉现在有一场评估危机,我真的不知道该看哪些指标。”SweetBench的创建者John Yang承认:“某种程度上,这些基准就是我们随手造出来的。”CMU的Martin Satava更直接:“这些量尺在根本上是坏的。”

那该怎么办?Darius给出的答案很现实:公共基准可以改进,但真正想“赢”的团队,应该停止把它当终极目标。改进路径包括:强制相同计算预算的模型对比、公开成本与性能权衡;测试集去除商业利益绑定并定期轮换;指标层面控制风格因素,强制公开所有尝试,避免挑最优结果。

但他随即补充了一句更重要的话:“你赢不了一场被操纵的游戏,所以最好的方式,是不去玩它。”

真正有用的评估:从排行榜,回到你的产品

在视频的最后,Darius把视角从行业批判,拉回到一线实践。他给出了一个五步法,几乎与任何具体榜单无关。

第一,用真实数据。哪怕只是生产系统中的5个真实用户查询,也“远远胜过100道学术题”。第二,选对指标:质量、成本、延迟,哪些影响你的用户,就测哪些。第三,选对模型,不迷信排行榜,而是在你的数据上测试前五名。第四,把评估系统化,确保可重复。第五,持续迭代,把评估当成过程,而不是一次性活动。

在Scorecard内部,这被实现为一个部署前评估闭环:发现问题、改进方案、运行评测,达标才上线,然后持续监控、再循环。Darius强调,正是这种流程,区分了“稳定交付AI的团队”和“永远在生产环境救火的团队”。

他的总结也同样克制而锋利:“所有基准都是错的,但有些是有用的。关键在于,你是否知道哪一个对你有用。”

总结

这场关于AI基准测试的演讲,真正的价值不在于揭露“谁作弊了”,而在于揭示一个被激励机制扭曲的系统。公共榜单不会消失,但它们越来越不适合作为产品决策的依据。对开发者和创业者而言,最重要的启发是:停止为Twitter和投资人优化分数,转而为你的真实用户构建评估体系。那才是你真正能赢的比赛。


关键词: AI基准测试, 大语言模型, 模型评估, Goodhart定律, AI应用

事实核查备注: 人物:Darius Emrani(Scorecard CEO)、Andrej Karpathy、John Yang、Martin Satava;公司:OpenAI、Anthropic、Meta、xAI;产品/模型:Grok 3、OpenAI o3、Llama 4 Maverick、Claude;技术名词:benchmark、consensus@64、LM Arena、Goodhart定律;时间:视频发布于2025-06-03