基准全线飙升，但模型仍在胡说八道：一位工程师的反击

AI PM 编辑部 · 2026年04月24日 · 10 阅读 · AI/人工智能

AI推理大语言模型开源模型 AI Agent Anthropic

正在加载视频...

视频章节

当所有排行榜都在狂飙，Peter Gostev却当众泼了一盆冷水：模型变强了，但在“拒绝胡扯”这件事上，进步几乎停滞。更残酷的是，新模型有时还不如小模型。这场演讲用一个看似荒谬的基准，戳穿了我们对AI能力的集体幻觉。

基准全线飙升，但模型仍在胡说八道：一位工程师的反击

当所有排行榜都在狂飙，Peter Gostev却当众泼了一盆冷水：模型变强了，但在“拒绝胡扯”这件事上，进步几乎停滞。更残酷的是，新模型有时还不如小模型。这场演讲用一个看似荒谬的基准，戳穿了我们对AI能力的集体幻觉。

所有曲线都在上涨，但那只是“好看的那一半”

Peter一上来就点破了一个行业心病：我们已经被基准测试“洗脑”了。不管看哪个榜单，线都在往上；不管多有心理准备，新模型发布还是能把人吓一跳。这种持续的正反馈，制造了一种集体焦虑——仿佛下一个模型就要无所不能。

但问题在于，这些曲线讲的不是完整故事。它们擅长衡量“能做对什么”，却几乎不关心“什么时候应该说不”。而在真实世界里，后者往往比前者更重要。模型不是考试机器，它们要进入的是模糊、充满噪声、甚至带点恶意的现实环境。Peter的核心观点很简单：如果我们只奖励模型“答对题”，那它们学会的，很可能只是更自信地胡说八道。

BullshitBench：专门考模型会不会“拒绝一本正经地瞎编”

于是，一个听起来就不太正经的基准诞生了——BullshitBench。设计思路极其朴素：给模型一些“看似合理、实则无意义”的问题，观察它是选择明确反驳，还是硬着头皮编个答案。

Peter坦言，一开始他也不确定这个基准有没有意义。但结果出来后，连他自己都被吓到了：在最新一批主流模型中，面对明显的胡扯型问题，模型“是否顺着编下去”几乎是50/50。换句话说，你掷个硬币，命中率差不多。

更反直觉的是，小模型在这项测试里，有时反而表现更好。它们更容易直接说“这个问题本身就不成立”。而一些被高度优化的大模型，则像是被训练成了“无论如何都要完成任务”的应试高手——哪怕任务本身是错的。这不是能力不足，而是目标函数出了问题。

越会“思考”，越容易掉进坑里？

演讲中最刺耳的一句话来自这里：更多的“thinking”并不一定带来更好的判断。在部分模型上，显式的推理过程甚至会反向放大问题——模型先假设问题成立，再用一整套看似严谨的逻辑去为错误前提服务。

Peter对比了低推理与高推理设置，发现后者更容易“把胡话说圆”。这也解释了为什么一些以推理能力著称的模型，在BullshitBench上并不占优。它们被奖励的是完成度，而不是判断力。

他还提到对Anthropic等模型的观察，但结论依然是：目前的数据不足以给出简单答案。是否启用推理、推理到什么程度，和“拒绝胡扯”之间，并不存在一条清晰的正相关曲线。

550万次人类投票揭示的残酷现实

如果说BullshitBench还显得有点“主观”，Arena的数据则给了一个更宏观的视角。超过550万次人类投票，记录的是用户在真实对比中对模型的偏好。

从长期趋势看，模型确实在进步，不满意率已经下降到个位数（约9%）。但一旦细分到具体类别，故事就变了：在数学、创意写作等明确任务中，表现稳步提升；而在游戏、安全等更复杂、更开放的场景里，不满意率的下降要慢得多，甚至与“LLM已经很懂这些领域”的叙事并不匹配。

这揭示了一个关键落差：模型在我们最容易量化的地方进步最快，而在真正接近“工作本质”的模糊地带，提升远没有想象中快。

总结

这场演讲真正的价值，不是告诉你“模型还不行”，而是提醒你该换一种看模型的方式。对从业者来说，下一阶段的竞争力不在于再多答对几道题，而在于：你是否在评估、训练、部署中，明确奖励了“拒绝胡扯”的能力。

如果你在做Agent、自动化或面向真实用户的系统，Peter的结论几乎是一个行动指南：引入反基准，刻意测试模型什么时候应该停下来；不要盲信推理链；多看长期、细分场景的数据。真正的进步，可能不是把天花板再抬高一点，而是先把地板补上。

关键词： BullshitBench，大语言模型， AI推理，模型评估， Arena数据

事实核查备注：需要核查：BullshitBench的具体定义与示例；最新模型在该基准上的50/50结果；小模型相对表现更好的结论；Arena平台累计投票数约550万；整体不满意率约9%；涉及Anthropic模型的具体观察未给出确定结论。

返回文章列表