4B模型干翻235B巨兽：这场演讲戳破了“大模型迷信”

AI PM 编辑部 · 2026年06月10日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人都在疯狂堆参数时，Snorkel 的 Kobie Crawford 做了一件反潮流的事：用强化学习，让一个 40 亿参数的小模型，在工具使用任务上击败了 2350 亿参数的“巨无霸”。更反直觉的是，这一切的训练成本不到 500 美元。

4B模型干翻235B巨兽：这场演讲戳破了“大模型迷信”

当所有人都在疯狂堆参数时，Snorkel 的 Kobie Crawford 做了一件反潮流的事：用强化学习，让一个 40 亿参数的小模型，在工具使用任务上击败了 2350 亿参数的“巨无霸”。更反直觉的是，这一切的训练成本不到 500 美元。

行业最大幻觉：模型不行？那就再大一点

过去两年，AI 行业形成了一种近乎本能的条件反射：模型效果不好？那就换个更大的。工具用不好？幻觉严重？推理不稳定？答案似乎永远只有一个——参数不够。

Kobie Crawford 在演讲中直接点破了这个“行业潜规则”。他展示了一个 2350 亿参数、量化后的大型模型，在面对需要调用工具的问题时，居然选择了最糟糕的路径：它没有用工具，而是“自信地胡编”。

这不是能力不足，而是行为失控。模型“知道”工具存在，却没有形成纪律：什么时候必须停下来、调用工具、校验结果。结果就是我们最熟悉的那个老问题——幻觉。

Crawford 的一句话在现场反复被提及：“Sometimes getting a bigger model isn’t the answer.” 这不是反大模型，而是反“懒惰的 scaling 思维”。

真正的对手不是大模型，而是“不守规矩的模型”

Snorkel 与 UC Berkeley 的 RLLM / Agentic 团队合作，给自己定了一个极具挑衅性的目标：

用 40 亿参数的模型，在工具使用任务上，击败 2350 亿参数模型。

注意，这里比拼的不是数学推理、也不是长链条思考，而是一个经常被忽视、却极其“工程向”的能力：Tool Use Discipline（工具使用纪律）。

演示中，大模型在该用工具的时候选择直接生成答案，结果必然是错的；而问题的关键不在“不会算”，而在“没学会什么时候必须依赖外部工具”。

这也是 Crawford 反复强调的一点：问题不在 reasoning，而在 behavior。你不需要一个更聪明的模型，你需要一个更听话、更守规则的模型。

500 美元的强化学习，换来 2 倍效果提升

真正让现场安静下来的，是训练成本。

Snorkel 团队没有重新预训练模型，也没有搞昂贵的人类标注，而是构建了一个 FinQA 环境：
- 总样本数约 290
- 明确的工具调用反馈
- 可以自动评估成功与失败

在这个环境里，他们对小模型做了强化学习微调。结果？

单次 RL 训练成本：低于 500 美元
性能提升：从 13.9% 跳到 26.6%

最反直觉的一点在于：

带来最大提升的，并不是“复杂推理训练”，而是最基础的工具使用行为训练。

模型学到的不是“想得更深”，而是“什么时候别瞎想，先用工具”。

这不是一次实验，而是一种路线之争

这场演讲真正的分量，不在于“4B 赢了 235B”这个 headline，而在于它暗示了一条完全不同的演进路径：

Scaling Law 解决的是“能力上限”
强化学习 + 行为设计，解决的是“能力是否被正确使用”

如果你的模型已经“什么都会一点”，但在真实系统里依然不稳定、爱胡说、不会协作，那问题大概率不是参数规模，而是行为对齐。

Crawford 的总结非常克制，却意味深长：

Sometimes you just need to find the specific behavior that’s broken.

不是推倒重来，而是精准修复。

总结

这场演讲给 AI 从业者一个极其现实的提醒：在模型能力快速商品化的时代，真正的壁垒正在从“谁的模型更大”，转向“谁能让模型更好地做事”。

如果你在做 Agent、Tool Calling、企业级 AI 系统，与其纠结要不要上 200B，不如先问三个问题：模型什么时候该停？什么时候必须用工具？失败有没有明确反馈？

下一阶段的竞争，可能不是算力竞赛，而是行为工程。而这一次，赢家未必是参数最多的人。

关键词：强化学习，工具使用，模型行为对齐，幻觉，小模型

事实核查备注：需要核查：1）Kobie Crawford 的姓名拼写与职位；2）Snorkel 与 UC Berkeley RLLM / Agentic 项目的合作关系；3）4B 与 235B 模型参数规模表述；4）RL 训练成本低于 500 美元的具体条件；5）13.9% 到 26.6% 的性能指标定义与评测环境（FinQA）。

返回文章列表