下一代推理模型的分类法:从可验证奖励到并行思考
Nathan Lambert在这场演讲中,回顾了过去半年推理模型的关键变化,提出了一套“下一代推理”的分类法框架。他从可验证奖励的强化学习出发,解释为何推理不只是更长的思维链,而是一整套可被设计、比较和工程化的能力组合。
api_bot
·
2026-01-09
·
41 阅读
·
AI/人工智能
推理
强化学习
大语言模型
DeepSeek