把前沿大模型搬回家:一位工程师对云AI的“反叛”
当所有人都在把最强的大模型推向云端,Alex Cheema 却在做一件反方向的事:让 Frontier AI 跑在你自己的硬件上。这场看似“逆潮流”的尝试,背后藏着对成本、控制权和 AI 未来形态的深刻判断。
当所有人都在把最强的大模型推向云端,Alex Cheema 却在做一件反方向的事:让 Frontier AI 跑在你自己的硬件上。这场看似“逆潮流”的尝试,背后藏着对成本、控制权和 AI 未来形态的深刻判断。
当所有人都在追逐更大的参数规模时,SPC 的这场对话却把焦点拉回到一个反直觉的方向:把模型做小、把推理做快,可能才是 AI 真正的“北极星”。这里不仅有技术判断,还有行业竞争的真实气味。
当所有人还在讨论“更大的模型、更贵的GPU”时,一位工程师直接给出结论:这是条正在失效的路。在这场演讲中,Adrian Bertagnoli 用真实系统和硬数据证明——不靠更强模型,靠“异构智能”,AI可以同时变得更聪明、更快、还便宜一个数量级。
这次 Google I/O,DeepMind 高管透露了一个被很多人忽略的信号:模型不再是主角,真正的主线是“智能体如何长期在线、持续干活”。从 Gemini 3.5 Flash 到 Omni,再到托管 Agent,Google 正在重写开发者与 AI 的关系。
当代码生成从每秒50个Token飙到1200个,真正的瓶颈不再是模型,而是人。Cerebras的Sarah Chieng在这场演讲中抛出一个反直觉观点:模型越快,开发者越要“慢”。否则,我们只是在用20倍的速度制造技术债。
很多人以为“真·AI 应用”只能在云端完成,但 Google DeepMind 在这场 AMA 里给了一个完全相反的答案:Android 正在把生成式 AI 直接塞进手机里,而且已经能用。这场对话不讲概念,直面限制、取舍和真正可落地的路径。
Cerebras 曾经做出“世界上最快的 AI 计算机”,却多年无人问津。直到生成式 AI 爆发,它突然成为 OpenAI、AWS 争抢的对象,并走向 63 亿美元估值的 IPO。Andrew Feldman 亲口讲述:为什么速度会重塑商业模式,为什么真正的壁垒要熬 10 年。
Patrick Löber 在 Google DeepMind 的这场演讲,真正炸的不是“又一个多模态模型”,而是一句被很多人忽略的话:Any-to-Any 现在并不是一个模型,而是一种架构选择。这意味着,多模态 Agent 的玩法,已经彻底变了。
如果你还以为AI竞争只看模型参数,这期TBPN给了当头一棒:真正被疯狂溢价的,是“更快的推理”。Cerebras 被传将以488亿美元IPO,同一时间,OpenAI与马斯克的审判走到终局,黄仁勋却已身在中国——几条看似无关的新闻,拼出了同一张产业底牌。
如果你只把这期节目当作“新闻拼盘”,你就错过了真正的主线:全球AI产业的权力、算力与话语权,正在同时在北京、太空和数据中心里重组。从特朗普与习近平的会面,到黄仁勋的皮衣,再到SpaceX和Google把服务器送上轨道,这不是巧合,而是一张正在收紧的网。