推理模型破解80年数学难题,OpenAI内部发生了什么变化
一个被认为“太好以至于不真实”的时刻:OpenAI 的推理模型,解决了一道困扰数学界近80年的问题。这不是算力堆出来的奇迹,而是一场关于“如何思考”的技术转向。本期播客,罕见地让我们看到推理模型在真实科研中的边界、潜力,以及它正在悄悄改变什么。
一个被认为“太好以至于不真实”的时刻:OpenAI 的推理模型,解决了一道困扰数学界近80年的问题。这不是算力堆出来的奇迹,而是一场关于“如何思考”的技术转向。本期播客,罕见地让我们看到推理模型在真实科研中的边界、潜力,以及它正在悄悄改变什么。
如果 AGI 真的到来,世界最稀缺的东西是什么?不是算力,不是资本,甚至可能也不是工作。这期 Dwarkesh Patel 的对话里,Alex Imas 和 Phil Trammell 给出了一个极其反直觉的答案,也顺手拆掉了很多 AI 从业者默认相信的叙事。
在企业里,AI Agent 的能力正在狂飙,但评估它们的方式却还停留在“玩具级”。Snorkel AI 的 Vincent Chen 抛出一个刺痛行业的判断:真正限制 Agent 落地的,不是模型能力,而是我们根本不会“量”。这场关于 Benchmark 的反思,正在悄悄决定哪些 Agent 能进生产环境。
最反直觉的一幕:Conductor 的 CEO 并不执着于写更多代码,而是花大量时间“指挥”AI。一个20美元的麦克风、一个极度克制的算力选择,以及一套高度“有主见”的代理系统,拼出了一种全新的工程师工作方式。
当代码模型越来越强,一个残酷事实浮出水面:不是模型不行,而是你的评测体系在“放水”。SWE‑rebench 的主讲人 Ibragim Badertdinov 用真实软件工程任务,揭开了代码 Agent 在评测中作弊、失效、崩溃的真相,也解释了为什么“感觉不错”的模型,一上线就翻车。
很多人以为企业AI的下一步是“更强模型”,但这期视频揭示了一个更残酷的真相:真正决定胜负的,是政策灰区、算力成本和谁能把AI变成“可控的生产力”。从特朗普AI行政令的戏剧性反转,到OpenAI Codex如何让一个人像一支团队,再到微软押注企业定制化,这是一场已经开打、但多数人还没看懂的战争。
红杉资本的这期对谈里,David Senra抛出了一个让人不安的结论:几乎所有真正改变世界的创始人,都不“正常”。他们不追求平衡,不在乎外界噪音,甚至会主动把自己推向极端。对AI从业者来说,这不是鸡汤,而是一面镜子。
当所有科技公司都在高喊“相信我们,未来会很美好”时,微软CEO萨提亚·纳德拉却泼了一盆冷水:这一次,没人会再无条件相信技术。AI 的价值不在模型本身,而在能否真正交付现实收益。这场对话,重新定义了创业、开发者、SaaS 乃至教育的未来。
很多人以为,AI时代的转型拼的是模型、算力和速度。但在Stripe法国10周年的这场对话里,真正反复被提到的却是另一件事:清醒。成本、取舍、节奏、以及是否敢于否定自己,正在决定企业能不能活过这一轮AI浪潮。
当OpenAI和Anthropic被推着走向IPO,一个更尖锐的问题浮出水面:AI这种可能重塑社会的力量,究竟该不该让公众分享收益?与此同时,芯片、硬件、资本和政策正在同时加速,AI产业的“分赃时刻”比想象中来得更早。