基准全线飙升,但模型仍在胡说八道:一位工程师的反击
当所有排行榜都在狂飙,Peter Gostev却当众泼了一盆冷水:模型变强了,但在“拒绝胡扯”这件事上,进步几乎停滞。更残酷的是,新模型有时还不如小模型。这场演讲用一个看似荒谬的基准,戳穿了我们对AI能力的集体幻觉。
当所有排行榜都在狂飙,Peter Gostev却当众泼了一盆冷水:模型变强了,但在“拒绝胡扯”这件事上,进步几乎停滞。更残酷的是,新模型有时还不如小模型。这场演讲用一个看似荒谬的基准,戳穿了我们对AI能力的集体幻觉。
如果你还把 AI 当成 Copilot、当成“效率工具”,那你已经落后一个时代了。Y Combinator 合伙人 Diana 在这期视频里抛出一个更激进的判断:AI 不是工具,而是公司运行的操作系统,组织结构、工程方式、管理层级都要被彻底推翻。
GPT‑5.5刚发布就被吐槽“涨价”,但Riley Brown的实测给了一个反直觉结论:真正的变化不在模型本身,而在它和Codeex结合后,对“知识工作”和“电脑操作”的重塑。如果你还把大模型当聊天工具,这篇文章会让你意识到自己已经落后一代。
一次凌晨2点到6点的对话,让小米大模型负责人罗福莉彻底改观:AI 已经不只是“能聊”,而是开始替人工作、改变研究节奏。OpenClaw 发布后,她意识到,一个新的技术范式其实已经悄悄发生。
OpenAI 在一周内同时发布 GPT‑5.5 和 ChatGPT Images 2,看似例行升级,却在真实对战中暴露出一个反直觉结论:它不再追求“最聪明”,而是开始全面服务“能干活的人”。Peter Yang 用 4 个实测,给了一个极其清醒的判断。
同一天里,私募巨头被迫吞下5.1亿美元的亏损,OpenAI却突然按下了GPT 5.5的“发布键”。TBPN这期节目把三个看似不相干的新闻串在一起,揭示了一个残酷现实:无论是传统SaaS,还是最前沿的AI,节奏一旦错了,代价都会被无限放大。
这不是一支传统意义上的人物介绍视频。快节奏、插播式“突发新闻”、看似无关的财经与产品片段,TBPN用一种反直觉的方式,展示了新一代Thiel Fellows所处的真实世界:不稳定、噪声巨大,但机会密度极高。
Every 团队提前内测 GPT‑5.5 三周,结论只有一句话:这是一次真正的能力跃迁。它还没到“高级工程师”水平,却已经把所有对手甩在身后;写作没那么有性格,却意外成了商业场景的利器。更重要的是,它正在重新定义什么叫“日常工作模型”。
如果你还认为“会不会写代码”决定了谁能成为创始人,这期对话会直接打脸。Replit 的创始人 Amjad Masad 和团队讲清楚了一件事:AI + 新型开发平台,正在系统性地降低创业门槛,甚至重塑“谁有资格做创始人”这件事本身。
当所有人都在用 AI 追求“更快写完代码”,Matt Pocock 在台上泼了一盆冷水:问题不在 AI 不够聪明,而在我们早就忘了什么叫好软件。这场演讲直指一个反直觉结论——AI 时代,软件基本功不是被削弱了,而是第一次变成了生死线。