他用一场演讲拆穿幻觉：生成式图像与视频，真正难的根本不是模型

AI PM 编辑部 · 2026年04月21日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

大多数人以为，生成式图像和视频模型的胜负手在网络结构或参数规模。但在这场关于“如何把生成模型真正做大”的演讲里，Sander Dieleman反复暗示了一个更残酷的事实：模型只是结果，真正决定上限的是数据、表示和训练体系的系统性设计。

大多数人以为，生成式图像和视频模型的胜负手在网络结构或参数规模。但在这场关于“如何把生成模型真正做大”的演讲里，Sander Dieleman反复暗示了一个更残酷的事实：模型只是结果，真正决定上限的是数据、表示和训练体系的系统性设计。

当模型终于能生成“看起来不错”的结果时，真正的工程挑战才刚开始。Sander 在后半段快速扫过了训练流程、架构折中，以及蒸馏在其中扮演的角色。

这里的核心思想非常务实：你不可能永远用最重、最慢、最贵的模型服务真实世界。蒸馏并不是为了学术上的优雅，而是为了把一个昂贵的生成过程，压缩成可以大规模部署的形态。

他也顺带点出了一个现实妥协：很多设计并不是“理论最优”，而是在算力、稳定性、训练时间之间做权衡。这种权衡能力，才是生成式模型“从 demo 到产品”的分水岭。

这场演讲最有价值的地方，不在于某个具体技巧，而在于它反复提醒我们：生成式图像和视频模型，是一个端到端的系统工程。如果你只盯着网络结构，很可能永远在修补表象。

对 AI 从业者来说，真正的行动建议是三个：第一，重新审视你的数据是否真的在教模型“正确的世界”；第二，认真对待潜在表示设计，它决定了模型的可扩展性；第三，把训练、蒸馏和部署当成同一个问题来设计。

一个值得思考的问题是：当生成模型继续变大，下一次真正的突破，会来自更大的模型，还是来自更聪明的系统设计？

关键词：生成式AI，图像生成，视频生成，模型训练，蒸馏

事实核查备注：需要核查：1）演讲者姓名 Sander Dieleman 的身份与背景；2）视频中是否明确提到具体模型名称或内部代号；3）关于潜在表示、扩散流程与蒸馏的表述是否与原视频措辞一致；4）视频发布时间与链接有效性。