从Paper Club到DeepSeek R1:一次关于推理、蒸馏与时间检验的复盘

AI PM 编辑部 · 2025年07月25日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这场Latent Space Paper Club的特别版,不只是回顾一年多的论文讨论,更借DeepSeek R1/V3这篇“经得起时间考验”的论文,系统讲清了推理模型、蒸馏路线以及训练方法上的关键取舍。你能看到一个技术社区如何成长,也能理解DeepSeek为何在推理能力上引发关注。

从Paper Club到DeepSeek R1:一次关于推理、蒸馏与时间检验的复盘

这场Latent Space Paper Club的特别版,不只是回顾一年多的论文讨论,更借DeepSeek R1/V3这篇“经得起时间考验”的论文,系统讲清了推理模型、蒸馏路线以及训练方法上的关键取舍。你能看到一个技术社区如何成长,也能理解DeepSeek为何在推理能力上引发关注。

为什么Paper Club本身就是一个值得研究的“实验”

在正式进入DeepSeek之前,演讲者先花了相当篇幅回顾Paper Club本身。这并非寒暄,而是一个重要背景:这个持续了一年半、“没有缺过一周”的论文俱乐部,最初只是一次尝试,但结果“paper club went much further than we expected”。为什么这重要?因为它解释了后面讨论的深度从何而来——这是长期、稳定、反复阅读和验证论文的结果。

他提到,当初启动Paper Club时,目标非常朴素:“we have to ship something… and then we'll cover it every week。”先上线、再迭代,而不是等一个完美方案。这种工程化心态,也直接映射到他们如何看待模型训练与推理优化。随着参与者增加,他们甚至决定第一次引入旧金山(SF)线下场次,而且是“one to two session”的紧凑形式,强调高密度讨论而非规模。

这里有一个隐含的方法论:真正有价值的技术判断,往往来自长期共同体,而不是单次爆款解读。这也解释了为什么他们会选择DeepSeek作为“Test of Time”的案例——不是因为它最新,而是因为它在反复讨论中依然站得住。

为什么是DeepSeek:推理能力成为分水岭

进入正题后,演讲者明确指出:“today's paper is going to be DeepSeek。”理由并不复杂:DeepSeek在推理能力上的表现,已经到了不能忽视的程度。这里的“推理”,指的是模型在多步思考、逻辑展开和中间状态保持上的能力,而不仅是生成流畅文本。

他引用了Simon Willis在一次主题演讲中的说法,作为行业共识的侧面印证:“we doubled the amount of reasoning it could do。”这句话本身并不提供技术细节,但点出了一个趋势——推理能力正在被当作可度量、可优化的核心指标。演讲者随后强调,DeepSeek的最新结果“it's significantly better actually”,不是边际改进,而是肉眼可见的跃迁。

重要的是,这种提升并非来自单一技巧,而是训练流程、数据策略和推理时扩展(inference time scaling)的共同结果。演讲者在这里反复提醒:如果只看最终分数,而不看路径,很容易误判模型的真实能力。这也是他们坚持逐段拆解论文的原因。

R1是如何被训练出来的:四步法与蒸馏取舍

在技术层面,视频中最密集的一段,是对DeepSeek R1训练流程的拆解。演讲者给出了一个“four-step approach”,用来概括R1模型的形成路径。虽然他没有在视频中逐字复现所有公式,但逻辑非常清晰:先建立基础模型,再通过强化推理相关信号,逐步放大模型在思考链路上的能力。

紧接着,他把话题引向蒸馏(distillation)。蒸馏的基本思想,是用一个更强的模型去教一个相对较小或结构不同的模型。在这里,DeepSeek不仅发布了R1,还“launched another distillation”。但有趣的转折在后面:当他们尝试直接从R1进行某些变体训练时,“It actually performed significantly worse than distillation。”

这个结果并不直观,却极具启发性。它说明在推理模型时代,更强的原始模型并不总是更好的老师,蒸馏路径本身的设计,可能比起点模型更重要。这也是演讲者反复强调的:不要迷信单一指标或单一模型版本。

R1、V3与未来:当“更强”并不等于“更好”

在接近尾声时,讨论转向对比和未来工作。演讲者直言不讳:“future work R1 is worse than V3。”这句话容易被误解,但他的意思并不是R1失败了,而是不同版本在不同目标函数下各有优劣。R1在推理链路上表现突出,但在其他维度上,V3可能依然更平衡。

这也引出了一个更大的问题:当我们说一个模型“更强”时,究竟在说什么?是推理深度、泛化能力,还是推理成本与延迟?演讲者没有给出标准答案,而是在最后十分钟做了一个“quick recap”,把讨论拉回Paper Club的初心——通过持续比较、复盘和集体讨论,逼近真实理解。

这种克制本身就是态度的体现:在生成式AI高速演进的当下,承认不确定性,往往比给出结论更重要。

总结

这期Paper Club特别版,一半是在讲DeepSeek R1的技术细节,另一半其实是在讲如何做技术判断。从“先上线再每周复盘”的Paper Club,到对R1、V3和蒸馏结果的冷静比较,演讲者不断提醒我们:真正经得起时间检验的,不是某个分数,而是一套理解和验证技术的方法。对读者而言,最大的启发或许是——与其追逐最新模型,不如建立自己的长期观察框架。


关键词: DeepSeek, 推理模型, 蒸馏, 模型训练, Paper Club

事实核查备注: 视频标题:Latent Space Paper Club: AIEWF Special Edition (Test of Time, DeepSeek R1/V3);频道:AI Engineer;发布时间:2026-01-08。关键原话包括:"paper club went much further than we expected"、"we have to ship something… and then we'll cover it every week"、"we doubled the amount of reasoning it could do"、"It actually performed significantly worse than distillation"、"future work R1 is worse than V3"。涉及技术名词:DeepSeek、R1、V3、蒸馏(distillation)、推理(reasoning)、inference time scaling、four-step approach。