推理模型的真正分水岭:不是算法,而是数据配方

AI PM 编辑部 · 2026年01月09日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

在这场演讲中,Bespoke Labs 创始工程师 Ryan Marten 复盘了 OpenThoughts 项目的完整探索过程:为什么 DeepSeek R1 的成功让他们意识到“数据配方”才是推理模型的关键,以及他们如何通过系统化实验,把监督微调(SFT)的推理能力推到新的高度。

推理模型的真正分水岭:不是算法,而是数据配方

在这场演讲中,Bespoke Labs 创始工程师 Ryan Marten 复盘了 OpenThoughts 项目的完整探索过程:为什么 DeepSeek R1 的成功让他们意识到“数据配方”才是推理模型的关键,以及他们如何通过系统化实验,把监督微调(SFT)的推理能力推到新的高度。

从“模型变聪明了”到“模型为什么变聪明”

Ryan 一上来就抛出一个很多人“默认却没细想”的现象:最近几个月,推理模型在某些基准上的表现出现了断崖式提升。尤其是在像 AIME 这样的竞赛级数学任务上,只要模型被允许“多想一会儿”,准确率就会显著提高。

他用一句话点出了本质:“This is reasoning. This is test time scaling.”——这是推理能力,也是测试时扩展(test-time scaling)的直接体现。模型并不是突然学会了新知识,而是学会了如何一步一步地展开思考。

这个观察非常重要,因为它把讨论的重心从“更大的模型、更复杂的算法”转移到了“思考过程本身”。如果性能跃迁来自更长、更好的推理链条,那问题就变成:这些推理能力到底是怎么被训练出来的?

这也为后面的转折埋下伏笔。Ryan 明确表示,这次他会“switch tack”,暂时不谈太多强化学习(RL),而是专注在一个被长期低估的变量上——推理数据本身。

DeepSeek R1 带来的意外启发:SFT 才是终点

真正触动 Ryan 和 Bespoke Labs 的,是 DeepSeek R1 的发布。在很多人眼里,R1 的亮点是大规模强化学习;但 Ryan 关注的是另一件事:DeepSeek 最终发布的权重,本质上是一个 SFT(监督微调)模型。

他明确指出,DeepSeek R1 的最终模型来自 DeepSeek V3 base,在此基础上进行了约 80 万条 SFT 微调,其中 60 万条是推理数据。强化学习在过程中“非常重要”,但更多是用来生成高质量数据,而不是最终模型形态。

更让他们震惊的是 DeepSeek 同时发布的小模型。这些小体量的推理模型表现“incredibly strong”,远超很多人的直觉。问题随之而来:如果训练方法我们大概知道了,那数据是怎么来的?

Ryan 用一个非常工程师式的总结点破关键:“We sort of have a training recipe, but we don’t have the data recipe. That’s the missing link.” 这句话直接定义了 OpenThoughts 项目的目标。

为什么要自己做推理模型?不是情怀,是现实收益

在解释 OpenThoughts 之前,Ryan 先回答了一个更现实的问题:为什么企业或团队要自己训练推理模型?

他引用了前一天 Amir 关于开源和企业的分享,总结出几个维度:性能、隐私、速度与成本,以及“ownership and destiny”。这并不是一句空话,而是指你是否能真正控制模型在特定领域的行为和演进方向。

在这里,他再次强调了一个“反直觉”的观点:强化学习当然很强,但在推理任务上,SFT“extremely easy and extremely effective”。这不是否定 RL,而是重新排序工具箱里的优先级。

对很多实际问题来说,与其投入巨大成本做复杂 RL,不如先把高质量推理数据这件事做到极致。OpenThoughts 正是沿着这个思路展开的。

OpenThoughts 3:用工程方法逼近最优数据配方

演讲的核心,是 OpenThoughts 项目如何系统性地寻找“最佳推理数据配方”。Ryan 把整个流程拆成几个清晰步骤:问题来源与混合、问题过滤、用教师模型生成答案(蒸馏)、再过滤掉低质量推理,最后选择最合适的教师模型。

为了验证每一个决策,他们做了极其密集的实验。Ryan 展示了 Hugging Face 页面截图:累计创建了 5000 多个数据集、近 3000 个模型。仅 OpenThoughts 项目本身,就有约 1000 次对照实验。

结果是明确的。在 AIME、LiveCodeBench 和 GPQA Diamond 等基准上,随着 SFT 数据规模扩大,准确率稳定上升,而且相比 NVIDIA 的 NeMo/Neimatron Nano 数据配方,OpenThoughts 把整条 scaling curve“整体上移”了。

最终,他们训练出的 7B 开源推理模型,不仅显著超过 DeepSeek R1 Qwen 7B distill 版本,在部分基准上甚至能和 Neimatron Nano 打平或领先。这直接证明:数据配方本身,就是核心竞争力。

最重要的经验:不是答案,而是“怎么想”

在总结关键学习时,Ryan 分享了一个让很多人意外的发现:为同一个问题采样多条推理路径,效果非常好,而且在固定数据规模下并不会拉低性能。

这意味着,模型学到的并不只是“正确答案”,而是教师模型尝试解决问题的多种方式。他强调:“It’s not just the final output that matters.” 推理过程本身,就是训练信号。

这也解释了为什么 OpenThoughts 在小模型上表现突出——它们继承的是结构化思考模式,而不是死记硬背的结果。

演讲最后,Ryan 提到他们也把内部工具开放出来,例如名为 Curator 的数据集构建工具,并再次强调:这只是开始,关于推理数据和应用,还有大量研究空间。

总结

Ryan Marten 的分享传递了一个非常清晰的信号:在推理模型时代,真正拉开差距的不是更炫的算法,而是对数据的极致理解与工程化打磨。OpenThoughts 的价值,不只是一个“更强的数据集”,而是证明了推理能力可以被系统性复制、优化和规模化。这对所有想做垂直领域推理模型的团队来说,都是一次重要的认知升级。


关键词: 推理模型, OpenThoughts, 监督微调, 数据配方, DeepSeek

事实核查备注: Ryan Marten:Bespoke Labs 创始工程师;OpenThoughts 3 于演讲当天发布;DeepSeek R1 最终为 SFT 模型,约 80 万 SFT 样本,其中 60 万为推理;对比数据集包含 NVIDIA Neimatron Nano;实验规模:5000+ 数据集,3000+ 模型;基准测试:AIME、LiveCodeBench、GPQA Diamond。