基准全线飙升,但模型仍在胡说八道:一位工程师的反击
正在加载视频...
视频章节
当所有排行榜都在狂飙,Peter Gostev却当众泼了一盆冷水:模型变强了,但在“拒绝胡扯”这件事上,进步几乎停滞。更残酷的是,新模型有时还不如小模型。这场演讲用一个看似荒谬的基准,戳穿了我们对AI能力的集体幻觉。
基准全线飙升,但模型仍在胡说八道:一位工程师的反击
当所有排行榜都在狂飙,Peter Gostev却当众泼了一盆冷水:模型变强了,但在“拒绝胡扯”这件事上,进步几乎停滞。更残酷的是,新模型有时还不如小模型。这场演讲用一个看似荒谬的基准,戳穿了我们对AI能力的集体幻觉。
所有曲线都在上涨,但那只是“好看的那一半”
Peter一上来就点破了一个行业心病:我们已经被基准测试“洗脑”了。不管看哪个榜单,线都在往上;不管多有心理准备,新模型发布还是能把人吓一跳。这种持续的正反馈,制造了一种集体焦虑——仿佛下一个模型就要无所不能。
但问题在于,这些曲线讲的不是完整故事。它们擅长衡量“能做对什么”,却几乎不关心“什么时候应该说不”。而在真实世界里,后者往往比前者更重要。模型不是考试机器,它们要进入的是模糊、充满噪声、甚至带点恶意的现实环境。Peter的核心观点很简单:如果我们只奖励模型“答对题”,那它们学会的,很可能只是更自信地胡说八道。
BullshitBench:专门考模型会不会“拒绝一本正经地瞎编”
于是,一个听起来就不太正经的基准诞生了——BullshitBench。设计思路极其朴素:给模型一些“看似合理、实则无意义”的问题,观察它是选择明确反驳,还是硬着头皮编个答案。
Peter坦言,一开始他也不确定这个基准有没有意义。但结果出来后,连他自己都被吓到了:在最新一批主流模型中,面对明显的胡扯型问题,模型“是否顺着编下去”几乎是50/50。换句话说,你掷个硬币,命中率差不多。
更反直觉的是,小模型在这项测试里,有时反而表现更好。它们更容易直接说“这个问题本身就不成立”。而一些被高度优化的大模型,则像是被训练成了“无论如何都要完成任务”的应试高手——哪怕任务本身是错的。这不是能力不足,而是目标函数出了问题。
越会“思考”,越容易掉进坑里?
演讲中最刺耳的一句话来自这里:更多的“thinking”并不一定带来更好的判断。在部分模型上,显式的推理过程甚至会反向放大问题——模型先假设问题成立,再用一整套看似严谨的逻辑去为错误前提服务。
Peter对比了低推理与高推理设置,发现后者更容易“把胡话说圆”。这也解释了为什么一些以推理能力著称的模型,在BullshitBench上并不占优。它们被奖励的是完成度,而不是判断力。
他还提到对Anthropic等模型的观察,但结论依然是:目前的数据不足以给出简单答案。是否启用推理、推理到什么程度,和“拒绝胡扯”之间,并不存在一条清晰的正相关曲线。
550万次人类投票揭示的残酷现实
如果说BullshitBench还显得有点“主观”,Arena的数据则给了一个更宏观的视角。超过550万次人类投票,记录的是用户在真实对比中对模型的偏好。
从长期趋势看,模型确实在进步,不满意率已经下降到个位数(约9%)。但一旦细分到具体类别,故事就变了:在数学、创意写作等明确任务中,表现稳步提升;而在游戏、安全等更复杂、更开放的场景里,不满意率的下降要慢得多,甚至与“LLM已经很懂这些领域”的叙事并不匹配。
这揭示了一个关键落差:模型在我们最容易量化的地方进步最快,而在真正接近“工作本质”的模糊地带,提升远没有想象中快。
总结
这场演讲真正的价值,不是告诉你“模型还不行”,而是提醒你该换一种看模型的方式。对从业者来说,下一阶段的竞争力不在于再多答对几道题,而在于:你是否在评估、训练、部署中,明确奖励了“拒绝胡扯”的能力。
如果你在做Agent、自动化或面向真实用户的系统,Peter的结论几乎是一个行动指南:引入反基准,刻意测试模型什么时候应该停下来;不要盲信推理链;多看长期、细分场景的数据。真正的进步,可能不是把天花板再抬高一点,而是先把地板补上。
关键词: BullshitBench, 大语言模型, AI推理, 模型评估, Arena数据
事实核查备注: 需要核查:BullshitBench的具体定义与示例;最新模型在该基准上的50/50结果;小模型相对表现更好的结论;Arena平台累计投票数约550万;整体不满意率约9%;涉及Anthropic模型的具体观察未给出确定结论。