4B模型干翻235B巨兽:这场演讲戳破了“大模型迷信”
当所有人都在疯狂堆参数时,Snorkel 的 Kobie Crawford 做了一件反潮流的事:用强化学习,让一个 40 亿参数的小模型,在工具使用任务上击败了 2350 亿参数的“巨无霸”。更反直觉的是,这一切的训练成本不到 500 美元。
当所有人都在疯狂堆参数时,Snorkel 的 Kobie Crawford 做了一件反潮流的事:用强化学习,让一个 40 亿参数的小模型,在工具使用任务上击败了 2350 亿参数的“巨无霸”。更反直觉的是,这一切的训练成本不到 500 美元。
如果我告诉你:在8张H100上训练一个3B模型,光是把模型参数放进去就会直接OOM,你可能会觉得夸张。但Together AI的Max Ryabinin不仅验证了这一点,还一路把上下文长度推到了500万Token。这不是炫技,而是一场关于“内存从哪儿漏光”的硬核拆解。
当所有人都在讨论更大的模型、更贵的Token时,Google DeepMind在这场分享里反复强调了一件“反直觉”的事:真正能跑起来的AI,必须回到设备本身。从Gemma 4到端侧Agent,这不是性能妥协,而是一场架构转向。
如果你还觉得“真正的 AI 一定在云端”,这场分享会直接打脸。来自 Google 的工程师展示了一个反直觉现实:通过 Tiny LLM、量化和 LiteRT-LM,边缘设备已经能跑起可靠的智能代理,而且不是 Demo,是可上线的那种。
如果你还觉得大模型只能在云端跑,这场NVIDIA的实测会直接打脸:14B模型本地20 token/s,首token快3.4倍。更重要的不是跑得多大,而是开发者终于能在自己桌边,摸清真实的工程边界。
苹果把一台 Mac 的价格拉到和入门款 iPhone 一样,Sam Altman 公开为五角大楼合同辩护,而投资人却集体沉默。这期 TBPN 把消费电子、AI 基础设施和地缘政治拧成了一根绳,对 AI 从业者来说,全是不能忽略的信号。
一年前,很多人断言“谷歌在AI竞赛中已经出局”。但MatX CEO、前Google TPU架构师 Reiner Pope 给出了完全相反的答案:今天AI算力格局的关键,恰恰来自谷歌十年前那些看似笨拙、过早、甚至被低估的决定。这是一场关于芯片、Transformer和‘机械同理心’的硬核复盘。
Naman Jain 回顾了四年编码评测工作的演进:从毫秒级的代码补全,到耗时数小时的代码库优化。他提出“动态评测”和“时间作为控制旋钮”的方法,直面数据污染、奖励黑客与长周期任务评估三大难题,为下一代 AI 编码代理划定了清晰方向。
这场演讲不讲炫技,而是直指语音模型落地生产时最容易被忽视的瓶颈:延迟并不只在模型里,GPU也不是唯一答案。Philip Kiely 从架构、指标到客户端代码,拆解了如何让语音 AI 真正“听起来快、用得起、撑得住”。
马斯克的一场直播,让很多AI从业者第一次意识到:自动驾驶的突破,可能不是算法小修小补,而是整个软件范式的更换。这不是一次炫技式Demo,而是一次“软件如何被构建”的公开改写。