从Sora到YC创业者:生成式视频模型正在如何被真正构建
正在加载视频...
视频章节
这期来自Y Combinator的《Light Cone》节目,通过对OpenAI Sora式生成视频的现场讨论,揭示了生成式AI从“科幻”走向工程现实的关键变化,也分享了YC创业公司在训练基础模型、控制成本和寻找应用落点时的真实经验。
从Sora到YC创业者:生成式视频模型正在如何被真正构建
这期来自Y Combinator的《Light Cone》节目,通过对OpenAI Sora式生成视频的现场讨论,揭示了生成式AI从“科幻”走向工程现实的关键变化,也分享了YC创业公司在训练基础模型、控制成本和寻找应用落点时的真实经验。
当科幻变成工程现实:生成式视频的拐点
为什么生成式视频如此重要?因为它第一次让“世界级模拟”不再只是电影工业的专利。节目一开始,主持人就感叹:“a lot of the Sci-Fi stuff is actually now becoming possible... and that's an incredible blessing。”这句话点出了整个讨论的基调——我们正在跨过一个长期被认为不现实的门槛。
在《Light Cone》这一期中,YC团队展示了由前沿模型生成的视频片段,并明确指出:这已经不是玩具级Demo,而是“still a real breakthrough”。这里的突破不在于画面是否好看,而在于模型是否能持续、稳定地生成一个可信世界。生成式AI第一次开始触及“世界一致性”这个过去极难解决的问题。
这种变化意味着什么?意味着生成模型不再只是内容工具,而正在成为一种“世界生成引擎”。这也是为什么视频生成被视为比文本、图像更艰难、也更具战略意义的一步。
真正让人震撼的不是画面,而是“同一个世界”
在具体演示中,主持人提到一个细节:“the other thing that I find really impressive... it's clearly all takes place in the same world。”这句话解释了为什么Sora类模型会让业内如此兴奋。
其中一个示例是:无人机视角环绕金门大桥。镜头在移动,但桥的结构、水面的运动、光影变化保持了物理上的一致性——“it captures the motion of water just incredibly”。这并不是简单的视频拼接,而是模型在内部维持了一个隐式的世界状态。
对生成式AI来说,这一步极其关键。过去的视频生成常常在几秒后崩坏,物体变形、场景跳变。而这里展示的,是模型开始学会在时间维度上“记住”环境。这也暗示了其背后并非单一技巧,而是对时序建模、空间表示的系统性进步。
技术猜想:Transformer之外,还发生了什么?
当然,所有人都在追问技术本质。节目中有人坦言:“one thing I'm really curious about... it's a combination of like robotics papers plus transformer。”这并非给出确定答案,而是点出了当前行业的共识:单靠传统Transformer并不足以解决长时序、物理一致性问题。
这里的“Transformer”指的是以注意力机制为核心的深度学习架构,它在语言模型中取得巨大成功。但在视频领域,研究者显然借鉴了机器人和控制领域关于动态系统、状态建模的思路。
值得注意的是,节目刻意没有给出具体实现细节。这本身就是一个重要信号:真正领先的生成式视频模型,已经进入高度工程化、系统化的阶段,难以用一两篇论文概括。
YC创业者如何在现实中训练基础模型
讨论很快落到更现实的问题上:“how much more expensive is it to generate one of these videos... how do YC companies build foundation models?”这正是YC最关心的地方。
节目中提到,多家YC公司正在尝试在一个Batch周期内训练模型,例如Infinity AI、Metalware等。有人评价Infinity AI的效果是“really accurate representation”,而Metalware则是在Batch期间完成了模型训练。这些案例说明,基础模型不再只属于巨头,但代价和取舍极其关键。
同时,也有公司选择垂直方向,比如Sonado在语音AI上的探索,被评价为“first time I've heard AI vocals like that”。YC的逻辑很清晰:不是所有创业公司都要做Sora,而是要在可控成本下,找到模型能力与具体场景的交集。
应用落点:从内容到生物学,想象力正在扩张
在节目的后半段,话题从“如何构建”转向“用来做什么”。主持人提到:“there's a bunch of companies applying it to biology... lots of things it's also possible。”
这背后是一个重要判断:生成式AI的真正价值,不只在内容生产,而在对复杂系统的模拟与生成。无论是视频、语音,还是生物结构,本质都是高维数据的建模问题。
正如他们所说,“applications of AI that people thought would exist... specializing it”。当模型能力足够通用,真正的竞争优势将来自于专用化和落地速度,而不是参数规模本身。
总结
这期《Light Cone》并没有试图完整拆解Sora的技术细节,而是提供了一种更有价值的视角:生成式视频之所以重要,是因为它标志着模型开始理解并维持一个世界。对创业者而言,问题也不再是“能不能做”,而是“值不值得做、该做哪一段”。当科幻正在变成工程现实,真正的分水岭,来自选择与执行。
关键词: Sora, 生成式AI, Transformer, 模型训练, Y Combinator
事实核查备注: 视频标题:How To Build Generative AI Models Like OpenAI's Sora;频道:Y Combinator;节目名:Light Cone;提及产品:Sora;技术关键词:Transformer;示例场景:无人机视角金门大桥;公司:Infinity AI、Sonado、Metalware、Playground(均为YC相关提及)