推理模型破解80年数学难题，OpenAI内部发生了什么变化

AI PM 编辑部 · 2026年06月04日 · 14 阅读 · AI/人工智能

正在加载视频...

视频章节

一个被认为“太好以至于不真实”的时刻：OpenAI 的推理模型，解决了一道困扰数学界近80年的问题。这不是算力堆出来的奇迹，而是一场关于“如何思考”的技术转向。本期播客，罕见地让我们看到推理模型在真实科研中的边界、潜力，以及它正在悄悄改变什么。

推理模型破解80年数学难题，OpenAI内部发生了什么变化

一个被认为“太好以至于不真实”的时刻：OpenAI 的推理模型，解决了一道困扰数学界近80年的问题。这不是算力堆出来的奇迹，而是一场关于“如何思考”的技术转向。本期播客，罕见地让我们看到推理模型在真实科研中的边界、潜力，以及它正在悄悄改变什么。

这不是算得更快，而是第一次“真的会想了”

播客一开场，主持人 Andrew Mayne 就抛出一句意味深长的话："这可能是一百次里唯一一次，听起来太好以至于不真实，但它真的发生了。"所谓“它”，并不是模型跑分破纪录，而是一个推理模型，在几乎没有为此定制规则的情况下，啃下了一道存在了80年的数学难题。

这件事反直觉的地方在于：过去我们默认模型的进步来自更大的参数、更长的上下文、更强的算力。但在这次案例里，真正起决定作用的，是模型内部的推理路径——它能一步步拆解定义、构造中间结论、再回到整体目标。这也是为什么多位研究者在对话中反复强调：这不是“答案生成”，而是“过程生成”。

换句话说，这是一次从“我知道结果”到“我知道为什么”的转变。对于数学这种高度依赖推理链条的领域，这个差异是质变级的。

从竞赛数学到真实世界：推理能力是怎么炼成的

在播客中，IOI（国际信息学奥赛）和 IMO（国际数学奥赛）被多次提及。这并不是炫耀背景，而是点出一个关键事实：很多顶级推理研究者，最早就是在“极限思考”的环境里成长的。

Lijie、Hongxun 等研究者的经历有一个共同点——他们并不是一开始就冲着“做大模型”来的，而是长期沉浸在“如何把复杂问题拆到不能再拆”的训练中。这种能力，在推理模型里被系统性地放大了。

有意思的是，研究者们也坦承：模型的进步速度快到让人不适应。"blistering pace" 这个词被用来形容内部节奏——不是按年迭代，而是按月、甚至按周。某些过去需要人类专家反复打磨的步骤，现在模型可以在极短时间内给出可验证的推导路径。

这也解释了为什么他们说“像活在梦里”：你能看到一个系统，正在逼近过去只属于少数天才的思考密度。

为什么 GPT‑3.5 是关键节点，而不是被淘汰的旧模型

播客中一个容易被忽略、但非常关键的细节，是研究者回顾 GPT‑3.5 Turbo 时的评价。他们并没有把它当作“过时产品”，而是强调：正是从那个阶段开始，模型学会了“grounded definitions”——也就是把概念真正钉在逻辑和语境里。

在 GPT‑3 时代，模型更多是在“模式拟合”；而到了 3.5，推理的雏形开始出现：它会停下来，先澄清问题中的定义，再决定用什么工具。这种能力，在数学和理论计算中尤其重要。

一位研究者提到：当你要求模型解题时，它不再急着给结论，而是先构造一个“不会把自己带沟里”的思路。这种谨慎，看似降低了速度，实际上极大提高了成功率。

这也为后续更强推理模型的出现，打下了基础。

推理不是炫技，它正在重塑整个数学共同体

当话题转向数学界的影响时，讨论明显变得更克制。研究者反复强调：这不是一场“人 vs 模型”的竞赛，而是一种工具范式的改变。

一个有代表性的观点是：推理模型让“可探索空间”突然变大了。过去很多研究方向，因为验证成本太高，被搁置；现在模型可以快速给出初步推导，帮助研究者判断一条路值不值得继续走。

当然，争议也随之而来。比如在密码学等高度敏感领域，推理能力的提升意味着什么？研究者并没有给出简单答案，只是指出：当计算机不仅更快，而且更会“想”，安全假设本身就需要重新审视。

这种变化，不是爆炸式的，但几乎不可逆。

真正的分水岭：我们开始要求模型解释自己

播客接近尾声时，有一个问题被反复追问：这是否证明推理是“有效的”？得到的回答很克制，但意味深长——有效，不是因为它解对了某一道题，而是因为我们终于可以检查它是怎么解的。

当模型的推理过程可读、可质疑、可修改，它就从一个黑箱，变成了协作者。这也是为什么研究者说，他们现在“更想用模型去做事”，但前提是“不把东西搞坏”。

这句话点出了当前推理模型最真实的状态：能力很强，但仍需要边界；潜力巨大，但必须被正确使用。

总结

这期播客真正重要的，不是“模型解了一道多难的题”，而是它展示了一条清晰路径：AI 正从结果导向，转向过程导向。对从业者来说，takeaway 很直接——未来的竞争力，不只在于你用不用模型，而在于你是否会审视、引导、甚至挑战它的推理过程。一个值得思考的问题是：当模型越来越会“想”，你准备好把哪些思考权交给它，又准备守住哪些底线？

关键词：推理模型， OpenAI，数学推理， GPT-3.5， AI科研

事实核查备注：需要核查：1）视频中提到的“80年数学难题”具体名称与背景；2）Andrew Mayne 的原话表述；3）Lijie、Hongxun 的具体研究方向与加入 OpenAI 的时间；4）关于 GPT-3.5 Turbo 在推理上的内部评价是否为原意转述。

返回文章列表