正在加载视频...
视频章节
当所有人都在卷更大的自回归模型时,Google DeepMind却在反其道而行:让文本生成变慢、可反复修改。Brendon Dillon在这场分享中,抛出了一个对AI工程师极具冲击力的观点——低延迟,不一定来自“更快地吐token”。
DeepMind谈Text Diffusion:它不是更聪明,而是让生成“慢下来”
当所有人都在卷更大的自回归模型时,Google DeepMind却在反其道而行:让文本生成变慢、可反复修改。Brendon Dillon在这场分享中,抛出了一个对AI工程师极具冲击力的观点——低延迟,不一定来自“更快地吐token”。
一个反直觉的开场:生成文本,为什么要放弃“一个token接一个token”?
我们已经习惯了自回归模型:token按顺序生成,越快越好。但Brendon Dillon一上来就把这个直觉拆掉了。他强调,不要过度迷信那些看起来很漂亮的指标数字,也不要默认“更低延迟=更快吐token”。在Text Diffusion里,模型并不是线性地往前写,而是像图像扩散一样,对整段文本进行多轮、并行的“去噪”。听起来更慢,但结果恰恰相反:在真实交互中,用户感知到的延迟可能更低,而且输出更干净、更稳定。
自回归 vs Diffusion:不是路线之争,而是计算方式的彻底不同
Brendon用相当直白的方式点出了核心差异:自回归模型把所有计算都压在“下一个token”上,而扩散模型可以动态、分配式地使用计算资源。这带来一组非常现实的取舍。自回归的优势是结构简单、延迟可预测,但一旦出错,后面全错;而Text Diffusion允许模型在生成过程中“回头修”,哪怕前面已经生成过的token,也可以被整体优化。这正是他反复提到的关键词之一:dynamic and adaptive computation——计算不再是一次性的,而是按需分配的。
Gemini Diffusion Demo:你看到的不是动画,而是真实token
分享中最容易被忽略、但对工程师最重要的一点,是他对Gemini diffusion demo的澄清:那些在浏览器里逐步出现的内容,并不是视觉特效,而是真实、原始的token输出。这意味着Text Diffusion已经不是纸面概念,而是能跑在真实产品链路中的系统。当然,他也坦承这是一场“whirlwind tour”,很多复杂性被暂时转移到别的模块里解决——但方向已经非常清晰:生成不必是线性的,产品体验也不必被token顺序绑死。
真正的杀手锏:快速原地编辑,而不是重写一切
在接近尾声时,Brendon提到一个极具产品想象力的优势:fast in-place editing。对于AI写作、代码生成或协作式编辑来说,这一点几乎是降维打击。不是“删掉重来”,而是在同一段文本上局部修改、整体收敛。这也解释了为什么他并不急着下结论——真正有趣的,不是这一代模型,而是当下一代出现时,人们会用它来做什么。
总结
这场分享传递的核心信息其实很克制:Text Diffusion并不是要全面取代自回归,而是打开了一种新的设计空间。对AI从业者来说,takeaway很明确——如果你还在只用“token/s”衡量生成系统,很可能已经落后了。接下来值得思考的是:在你的产品里,哪些问题其实更适合“整体优化”而不是“顺序生成”?当模型可以原地修改文本时,你的交互设计,是否还停留在旧范式里?
关键词: Text Diffusion, 自回归模型, Token, Gemini, 低延迟生成
事实核查备注: 需要核查:1)Brendon Dillon的具体职务与团队;2)Gemini diffusion demo是否为公开演示;3)“真实raw tokens在浏览器中展示”的原话表述;4)视频的实际时长与完整上下文。