一通API打通语音到音乐:Gemini音频栈把“说话”变成可编程媒介
如果你还把语音AI理解为“转文字+播报”,那这场分享会让你彻底落伍。Google DeepMind展示的Gemini音频栈,把转写、理解、生成、甚至音乐,压缩进一次API调用里——语音第一次像代码一样被“整体编排”。
如果你还把语音AI理解为“转文字+播报”,那这场分享会让你彻底落伍。Google DeepMind展示的Gemini音频栈,把转写、理解、生成、甚至音乐,压缩进一次API调用里——语音第一次像代码一样被“整体编排”。
当所有人都在等Apple在WWDC上放出“炸裂AI大招”,TBPN却给了一个反直觉判断:这次Apple赢在不激进。它没有重新发明AI,而是认真抄作业,把ChatGPT、Gemini、Claude这些“大家已经习惯的东西”系统级落地。这背后,藏着AI产品进入新阶段的关键信号。
大多数人做 Agent 界面时,第一反应是“更快、更省 token”。但来自 Google Chrome DevTools 团队的一个结论恰恰相反:如果你的 Agent 不知道自己在干什么,再高的效率都是浪费。这场演讲,拆穿了很多 Agent 产品正在犯的设计错误。
当所有人都在卷更大的自回归模型时,Google DeepMind却在反其道而行:让文本生成变慢、可反复修改。Brendon Dillon在这场分享中,抛出了一个对AI工程师极具冲击力的观点——低延迟,不一定来自“更快地吐token”。
如果 AGI 真的到来,世界最稀缺的东西是什么?不是算力,不是资本,甚至可能也不是工作。这期 Dwarkesh Patel 的对话里,Alex Imas 和 Phil Trammell 给出了一个极其反直觉的答案,也顺手拆掉了很多 AI 从业者默认相信的叙事。
当大模型已经能写出比你更好的前端代码,问题就不再是“能不能生成 UI”,而是“为什么我们的界面还这么原始”。Postman 的资深工程师 Ruben Casas 抛出一个大胆判断:我们还被组件时代困住了,而真正的生成式 UI 才刚开始。
当所有人盯着OpenAI、Anthropic的IPO倒计时,Google却悄悄从二级市场拿走了800亿美元现金。更反直觉的是:这不是恐慌,而是优势展示。这期TBPN,讲清了一件AI从业者必须正视的事——在AI时代,真正的护城河正在从“模型能力”转向“资本获取能力”。
在DeepMind内部,最资深的工程师也频频被AI Agent“折磨”。Gemini负责人Philipp Schmid用10分钟讲清一个残酷事实:做Agent最难的,不是模型,而是你必须放弃过去十年赖以成功的软件工程直觉。
当所有人都在把最强的大模型推向云端,Alex Cheema 却在做一件反方向的事:让 Frontier AI 跑在你自己的硬件上。这场看似“逆潮流”的尝试,背后藏着对成本、控制权和 AI 未来形态的深刻判断。
如果你以为 AI Agent 的核心难题是“模型还不够聪明”,那 Google DeepMind 会当场反驳你。在这场内部工程师的公开分享中,他们反复强调:真正把 Agent 跑到 Google 规模,最大的瓶颈是 Token、成本、配额,以及一整套几乎没人聊过的“代理操作系统”。