OpenAI DevDay 放出 o1:不是更快的模型,而是会“反复想错再想对”的模型
如果你还在用“更大模型=更聪明”理解 AI,这场 DevDay 可能会颠覆你。OpenAI 公布的 o1,不靠更快输出,而是靠“愿意思考、敢于试错”。它在最难的数学和代码题上碾压 GPT-4o,但代价是更慢、更贵。这不是一次升级,而是一次范式切换。
如果你还在用“更大模型=更聪明”理解 AI,这场 DevDay 可能会颠覆你。OpenAI 公布的 o1,不靠更快输出,而是靠“愿意思考、敢于试错”。它在最难的数学和代码题上碾压 GPT-4o,但代价是更慢、更贵。这不是一次升级,而是一次范式切换。
OpenAI 在“12 Days of OpenAI”第二天抛出一个狠招:不是更大的模型,而是一种新训练方式,让 o1-mini 在特定任务上干翻 o1。本质不是微调升级,而是把 OpenAI 内部的“强化学习秘密武器”交到开发者手里。
DeepMind 的 AlphaProof 团队在 No Priors 节目中首次系统讲述了他们如何将 AlphaZero 的思想迁移到数学证明领域。本文提炼了对“数学作为搜索空间”的关键洞见、测试时强化学习的突破,以及这一系统对 AI 推理能力边界的真实启示。
Y Combinator 的这期视频解释了 OpenAI o1 为什么被视为一代分水岭模型。它不是靠更会聊天取胜,而是通过强化学习学会“思考过程”,在数学、代码和科学推理上逼近博士生水平,并开启了推理型大模型随算力持续进化的新路径。
这场对话首次系统披露了OpenAI o1模型的核心理念:通过在推理阶段投入更多计算,让模型学会像人一样“多想一会儿”。从强化学习的积累、迭代式部署的策略,到对AGI路径的冷静判断,演讲者分享了多个并不显而易见的关键转折。
在这场访谈中,NVIDIA资深研究科学家Jim Fan系统讲述了具身智能与人形机器人的技术路径、个人经历与长期愿景。从强化学习到仿真驱动,从OpenAI到NVIDIA,他解释了为什么“所有会动的东西终将自主”,以及机器人领域的“GPT-3时刻”可能比想象中更近。
OpenAI 刚刚发布了 o1,一个会在回答前“思考 10–20 秒”的模型。它不追求秒回,而是用推理碾压复杂问题:数学、代码、科研、法律。更重要的是,这可能意味着大模型 scaling 的游戏规则,正在被彻底改写。
Google DeepMind研究副总裁Oriol Vinyals在播客中,回顾了Gemini诞生背后的组织变革,也直面当前大模型的关键限制。他给出的不是营销式愿景,而是关于上下文、检索、强化学习与搜索未来的第一手判断。
当所有人都在讨论模型规模时,Demis Hassabis却反复强调:真正缺的不是算力,而是“会规划、能行动、懂世界”的智能。这场对话里,他回顾了DeepMind最早没人信的年代,也罕见系统讲清了Gemini、AlphaFold和通用智能背后的同一条技术主线。
如果你还以为 ChatGPT 只是会聊天、写代码,那你已经落后了。就在 3 月中旬,OpenAI 把它装进了一台类人机器人,让 AI 看世界、理解场景、即时行动,还能解释“我为什么这么做”。这不是噱头,而是 AI 正式进入物理世界的关键一跃。