4B模型干翻235B巨兽:这场演讲戳破了“大模型迷信”

AI PM 编辑部 · 2026年06月10日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人都在疯狂堆参数时,Snorkel 的 Kobie Crawford 做了一件反潮流的事:用强化学习,让一个 40 亿参数的小模型,在工具使用任务上击败了 2350 亿参数的“巨无霸”。更反直觉的是,这一切的训练成本不到 500 美元。

4B模型干翻235B巨兽:这场演讲戳破了“大模型迷信”

当所有人都在疯狂堆参数时,Snorkel 的 Kobie Crawford 做了一件反潮流的事:用强化学习,让一个 40 亿参数的小模型,在工具使用任务上击败了 2350 亿参数的“巨无霸”。更反直觉的是,这一切的训练成本不到 500 美元。

行业最大幻觉:模型不行?那就再大一点

过去两年,AI 行业形成了一种近乎本能的条件反射:模型效果不好?那就换个更大的。工具用不好?幻觉严重?推理不稳定?答案似乎永远只有一个——参数不够。

Kobie Crawford 在演讲中直接点破了这个“行业潜规则”。他展示了一个 2350 亿参数、量化后的大型模型,在面对需要调用工具的问题时,居然选择了最糟糕的路径:它没有用工具,而是“自信地胡编”。

这不是能力不足,而是行为失控。模型“知道”工具存在,却没有形成纪律:什么时候必须停下来、调用工具、校验结果。结果就是我们最熟悉的那个老问题——幻觉。

Crawford 的一句话在现场反复被提及:“Sometimes getting a bigger model isn’t the answer.” 这不是反大模型,而是反“懒惰的 scaling 思维”。

真正的对手不是大模型,而是“不守规矩的模型”

Snorkel 与 UC Berkeley 的 RLLM / Agentic 团队合作,给自己定了一个极具挑衅性的目标:

用 40 亿参数的模型,在工具使用任务上,击败 2350 亿参数模型。

注意,这里比拼的不是数学推理、也不是长链条思考,而是一个经常被忽视、却极其“工程向”的能力:Tool Use Discipline(工具使用纪律)

演示中,大模型在该用工具的时候选择直接生成答案,结果必然是错的;而问题的关键不在“不会算”,而在“没学会什么时候必须依赖外部工具”。

这也是 Crawford 反复强调的一点:问题不在 reasoning,而在 behavior。你不需要一个更聪明的模型,你需要一个更听话、更守规则的模型

500 美元的强化学习,换来 2 倍效果提升

真正让现场安静下来的,是训练成本。

Snorkel 团队没有重新预训练模型,也没有搞昂贵的人类标注,而是构建了一个 FinQA 环境:
- 总样本数约 290
- 明确的工具调用反馈
- 可以自动评估成功与失败

在这个环境里,他们对小模型做了强化学习微调。结果?

  • 单次 RL 训练成本:低于 500 美元
  • 性能提升:从 13.9% 跳到 26.6%

最反直觉的一点在于:

带来最大提升的,并不是“复杂推理训练”,而是最基础的工具使用行为训练。

模型学到的不是“想得更深”,而是“什么时候别瞎想,先用工具”。

这不是一次实验,而是一种路线之争

这场演讲真正的分量,不在于“4B 赢了 235B”这个 headline,而在于它暗示了一条完全不同的演进路径:

  • Scaling Law 解决的是“能力上限”
  • 强化学习 + 行为设计,解决的是“能力是否被正确使用”

如果你的模型已经“什么都会一点”,但在真实系统里依然不稳定、爱胡说、不会协作,那问题大概率不是参数规模,而是行为对齐

Crawford 的总结非常克制,却意味深长:

Sometimes you just need to find the specific behavior that’s broken.

不是推倒重来,而是精准修复。

总结

这场演讲给 AI 从业者一个极其现实的提醒:在模型能力快速商品化的时代,真正的壁垒正在从“谁的模型更大”,转向“谁能让模型更好地做事”。

如果你在做 Agent、Tool Calling、企业级 AI 系统,与其纠结要不要上 200B,不如先问三个问题:模型什么时候该停?什么时候必须用工具?失败有没有明确反馈?

下一阶段的竞争,可能不是算力竞赛,而是行为工程。而这一次,赢家未必是参数最多的人。


关键词: 强化学习, 工具使用, 模型行为对齐, 幻觉, 小模型

事实核查备注: 需要核查:1)Kobie Crawford 的姓名拼写与职位;2)Snorkel 与 UC Berkeley RLLM / Agentic 项目的合作关系;3)4B 与 235B 模型参数规模表述;4)RL 训练成本低于 500 美元的具体条件;5)13.9% 到 26.6% 的性能指标定义与评测环境(FinQA)。