正在加载视频...
视频章节
Nathan Lambert在这场演讲中,回顾了过去半年推理模型的关键变化,提出了一套“下一代推理”的分类法框架。他从可验证奖励的强化学习出发,解释为何推理不只是更长的思维链,而是一整套可被设计、比较和工程化的能力组合。
下一代推理模型的分类法:从可验证奖励到并行思考
Nathan Lambert在这场演讲中,回顾了过去半年推理模型的关键变化,提出了一套“下一代推理”的分类法框架。他从可验证奖励的强化学习出发,解释为何推理不只是更长的思维链,而是一整套可被设计、比较和工程化的能力组合。
为什么“推理”在2025年突然变得不一样了
这一切的起点,并不是一个宏大的理论,而是一次阶段性的反思。Lambert开场就说,他是在“回顾过去六个月,思考带有可验证奖励的强化学习(reinforcement learning with verifiable rewards)到底带来了什么变化”。这里的关键词是“可验证”:模型的推理结果不再只是看起来像对,而是能被程序化地判断对错。
他提到,像 DeepSeek 这样的工作,让研究者第一次可以稳定地从推理过程中“抽取信号”。这件事的重要性在于,推理不再是黑箱里的副产物,而成为一个可以被优化的目标。当奖励是可验证的,研究者就能真正比较不同推理策略,而不是凭主观感受判断模型是否“更聪明”。
Lambert的一个隐含判断是:推理能力的跃迁,并不是来自单一模型规模的提升,而是来自训练信号的改变。这也是为什么他把这半年视为一个分水岭,而不是渐进式改良。
推理正在“解锁”新一代语言模型能力
在第二部分,Lambert明确提出一个观点:推理并不是附加功能,而是在“解锁”全新的语言模型形态。他直言,“这种推理正在真正解锁新的语言模型”,并且最终会形成一个独立的“reasoning models”类别。
这里的关键洞见是区分“会说话的模型”和“会思考的模型”。传统大语言模型擅长模式匹配和流畅生成,但在多步决策、复杂约束或长程规划任务中容易崩溃。而推理模型的目标,是在生成之前,先完成内部的结构化思考。
Lambert强调,这并不是让模型写更长的思维链,而是让不同类型的推理能力可以被识别、命名和组合。这正是他提出“taxonomy(分类法)”的原因:如果我们无法清晰描述一种能力,就无法系统性地改进它。
一套推理分类法:从任务到模型能力
演讲的中段,Lambert把这套分类法正式摆上台面。他展示的并不是单一列表,而是一种组织方式:把推理拆解为不同任务类型,再映射到模型所需的能力。
他提到,这是一份“推理任务的清单”,其价值不在于穷尽所有情况,而在于让研究者能够“跨不同模型进行沟通”。换句话说,当你说一个模型擅长某类推理时,别人能准确理解你指的是什么,而不是抽象的“很强”。
在这里,他也谈到一个现实限制:很多推理能力目前仍处于“非常早期的阶段”。有些任务只有在人类手动介入、精心设计提示或评估流程时,模型才会表现出色。这种不成熟并不是失败,而是清晰地标记了未来研究最值得投入的方向。
并行计算、规划先行,以及工程上的代价
在更偏工程的部分,Lambert讨论了并行计算(parallel compute)和规划(planning)的角色。他指出,并行计算确实能显著放大推理能力,但“它并不能解决每一个问题”。有些瓶颈来自任务本身,而不是算力不足。
一个重要转折点在于“先规划,再思考”。他描述的趋势是:模型在真正生成答案之前,先形成一个高层计划,而不是一边想一边说。这种结构化流程,更接近人类解决复杂问题的方式。
但代价同样明显。Lambert在结尾提醒,这条路线会带来“相当惊人的基础设施需求”,其规模甚至“相当难以想象”。推理能力的提升,不只是算法问题,也正在快速变成系统和成本的问题。
总结
Lambert这场演讲的价值,不在于给出某个具体模型的成功秘诀,而在于提供了一张思考地图:推理是什么、可以如何拆解、又将把我们带向哪里。从可验证奖励的强化学习,到推理任务的分类法,再到并行计算和规划先行的工程现实,他反复强调一件事——如果我们想要真正可控、可比较的推理能力,就必须把“思考”本身当成一等公民来设计。对研究者和工程团队而言,这既是机会,也是新的复杂性来源。
关键词: 推理模型, 大语言模型, 强化学习, 可验证奖励, DeepSeek
事实核查备注: 演讲者:Nathan Lambert;机构:Allen Institute (AI2)、Interconnects.ai;视频标题:A Taxonomy for Next-gen Reasoning;提及技术:reinforcement learning with verifiable rewards、reasoning models、parallel compute;提及产品:DeepSeek;发布时间:2025-07-19