DeepMind谈Text Diffusion：它不是更聪明，而是让生成“慢下来”

AI PM 编辑部 · 2026年06月04日 · 16 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人都在卷更大的自回归模型时，Google DeepMind却在反其道而行：让文本生成变慢、可反复修改。Brendon Dillon在这场分享中，抛出了一个对AI工程师极具冲击力的观点——低延迟，不一定来自“更快地吐token”。

DeepMind谈Text Diffusion：它不是更聪明，而是让生成“慢下来”

当所有人都在卷更大的自回归模型时，Google DeepMind却在反其道而行：让文本生成变慢、可反复修改。Brendon Dillon在这场分享中，抛出了一个对AI工程师极具冲击力的观点——低延迟，不一定来自“更快地吐token”。

一个反直觉的开场：生成文本，为什么要放弃“一个token接一个token”？

我们已经习惯了自回归模型：token按顺序生成，越快越好。但Brendon Dillon一上来就把这个直觉拆掉了。他强调，不要过度迷信那些看起来很漂亮的指标数字，也不要默认“更低延迟=更快吐token”。在Text Diffusion里，模型并不是线性地往前写，而是像图像扩散一样，对整段文本进行多轮、并行的“去噪”。听起来更慢，但结果恰恰相反：在真实交互中，用户感知到的延迟可能更低，而且输出更干净、更稳定。

自回归 vs Diffusion：不是路线之争，而是计算方式的彻底不同

Brendon用相当直白的方式点出了核心差异：自回归模型把所有计算都压在“下一个token”上，而扩散模型可以动态、分配式地使用计算资源。这带来一组非常现实的取舍。自回归的优势是结构简单、延迟可预测，但一旦出错，后面全错；而Text Diffusion允许模型在生成过程中“回头修”，哪怕前面已经生成过的token，也可以被整体优化。这正是他反复提到的关键词之一：dynamic and adaptive computation——计算不再是一次性的，而是按需分配的。

Gemini Diffusion Demo：你看到的不是动画，而是真实token

分享中最容易被忽略、但对工程师最重要的一点，是他对Gemini diffusion demo的澄清：那些在浏览器里逐步出现的内容，并不是视觉特效，而是真实、原始的token输出。这意味着Text Diffusion已经不是纸面概念，而是能跑在真实产品链路中的系统。当然，他也坦承这是一场“whirlwind tour”，很多复杂性被暂时转移到别的模块里解决——但方向已经非常清晰：生成不必是线性的，产品体验也不必被token顺序绑死。

真正的杀手锏：快速原地编辑，而不是重写一切

在接近尾声时，Brendon提到一个极具产品想象力的优势：fast in-place editing。对于AI写作、代码生成或协作式编辑来说，这一点几乎是降维打击。不是“删掉重来”，而是在同一段文本上局部修改、整体收敛。这也解释了为什么他并不急着下结论——真正有趣的，不是这一代模型，而是当下一代出现时，人们会用它来做什么。

总结

这场分享传递的核心信息其实很克制：Text Diffusion并不是要全面取代自回归，而是打开了一种新的设计空间。对AI从业者来说，takeaway很明确——如果你还在只用“token/s”衡量生成系统，很可能已经落后了。接下来值得思考的是：在你的产品里，哪些问题其实更适合“整体优化”而不是“顺序生成”？当模型可以原地修改文本时，你的交互设计，是否还停留在旧范式里？

关键词： Text Diffusion，自回归模型， Token， Gemini，低延迟生成

事实核查备注：需要核查：1）Brendon Dillon的具体职务与团队；2）Gemini diffusion demo是否为公开演示；3）“真实raw tokens在浏览器中展示”的原话表述；4）视频的实际时长与完整上下文。

返回文章列表