为什么DeepMind认为“思考能力”是Gemini突破瓶颈的关键

AI PM 编辑部 · 2025年07月10日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

Google DeepMind研究员Jack Rae从研究视角解释了Gemini中“thinking”的来龙去脉:它并非简单让模型回答更慢,而是试图解决大语言模型在推理、验证和人类理解层面的核心瓶颈。这场演讲揭示了DeepMind内部对智能进展的判断框架。

为什么DeepMind认为“思考能力”是Gemini突破瓶颈的关键

Google DeepMind研究员Jack Rae从研究视角解释了Gemini中“thinking”的来龙去脉:它并非简单让模型回答更慢,而是试图解决大语言模型在推理、验证和人类理解层面的核心瓶颈。这场演讲揭示了DeepMind内部对智能进展的判断框架。

从“更大模型”到“思考模型”:研究动机从何而来

这一部分最重要的问题是:在大语言模型已经取得巨大成功之后,为什么DeepMind还要专门强调“thinking(思考)”?Jack Rae给出的研究动机并不浪漫,而是非常工程化:现有模型正在撞上一些结构性的智能瓶颈。

他回顾了一个清晰的时间线:如果把时间快进十年,人类已经拥有了强大的大语言模型,它们在语言生成、知识覆盖和泛化能力上都表现惊人。但与此同时,一些问题始终反复出现——模型在复杂推理任务中不稳定、在数学或证明类问题上容易“看起来像对的但其实是错的”,以及无法可靠地区分“自己算出来的结论”和“训练中学到的模式”。

正是在这些瓶颈面前,Rae指出,“that is what motivates thinking”。这里的“thinking”不是哲学意义上的意识,而是一种研究方向:如何让模型在生成答案之前,显式或隐式地进行多步推理、验证中间结果,从而提高可靠性。这一动机直接塑造了Gemini中对思考能力的系统性投入。

Gemini里的“thinking”到底在做什么

当Rae谈到“thinking in Gemini”时,他刻意强调了“mechanically”这个词——这很重要,因为它表明DeepMind并不想把思考描述成魔法。相反,它是一套可分析、可实验、可优化的机制。

在演讲中,他解释了一个核心区分:普通生成式模型倾向于直接从输入跳到输出,而引入思考后,模型会在内部经历更多中间步骤。这些步骤可能不会全部暴露给用户,但在研究层面,它们是可以被度量和比较的。

Rae并没有给出具体算法细节(这在公开演讲中是有意为之),但他反复强调一个原则:思考的价值不在于“让回答变长”,而在于“让模型有机会检查自己”。在Gemini中,这种思考机制被用于那些单步预测明显不够用的任务,例如需要多重约束同时成立的问题。最终目标不是展示复杂性,而是提高成功率和稳定性。

能力之外,还有成本与适用性

一个容易被忽视、但在演讲中占据重要位置的转折点是:Rae明确表示,能力并不是唯一重要的指标。“it’s not just capability that matters”,这句话为后半段讨论定下了基调。

思考是有代价的。更多的推理步骤意味着更高的计算成本、更长的延迟,也意味着并非所有应用都值得启用。Rae指出,如果你的应用并不需要高度可靠的多步推理,那么强行加入思考反而可能是负担。

这背后反映的是DeepMind一贯的研究哲学:不是追求一个在所有场景下都最强的模型,而是理解不同能力模块的适用边界。在Gemini中,思考被视为一种“可选但关键”的能力——在需要它的地方,它能显著提升表现;在不需要的地方,系统应该避免浪费资源。这种对权衡的坦率讨论,让整场演讲显得非常务实。

从数学证明到“人类理解”

在后半段,Rae提到了一个具体而典型的应用领域:数学。数学问题之所以重要,不只是因为它难,而是因为它提供了一个清晰的验证标准——一个证明要么正确,要么错误。

他提到,思考机制在这类任务中尤其有价值,因为模型需要构建一个“some correct proof”,而不是给出看似合理的答案。这类任务暴露了大语言模型的一个老问题:语言流畅度并不等于推理正确性。

但演讲并没有停留在数学上。Rae进一步把话题引向“human understanding”。他的暗示是,真正有价值的思考能力,最终应该服务于模型对人类意图、约束和目标的理解,而不仅是形式化问题。这也为Gemini的研究方向定下了一个更长期的目标:思考不仅是解题工具,更是通向更可靠智能系统的桥梁。

总结

Jack Rae的演讲并没有公布炫目的新模型参数,而是清晰地解释了DeepMind为什么把“thinking”视为Gemini的关键能力之一。从智能瓶颈出发,到机制设计,再到成本权衡和长期目标,这是一套非常研究驱动的叙事。对读者的启发在于:下一阶段的AI进展,可能不再只是“更大”,而是“更会想,而且知道什么时候该想”。


关键词: Gemini, Google DeepMind, 思考能力, 大语言模型, 推理

事实核查备注: 人物:Jack Rae(Google DeepMind研究员,Gemini thinking技术负责人);公司:Google DeepMind;产品:Gemini;视频主题:thinking in Gemini;原话引用包括“that is what motivates thinking”“mechanically”“it’s not just capability that matters”“some correct proof”。