一行字生成一段电影:Runway Gen-2 把视频创作的门槛打碎了
如果你还以为 AI 生成视频只是“会动的图片”,那你已经落后一个时代了。就在一周之内,从 NVIDIA 的研究到 Runway Gen-2 的实测放出,文本生成视频这件事,突然从“实验室炫技”变成了“普通人也能上手的创作工具”。更重要的是,它正在改写内容创作、影视、游戏,甚至模拟世界的规则。
如果你还以为 AI 生成视频只是“会动的图片”,那你已经落后一个时代了。就在一周之内,从 NVIDIA 的研究到 Runway Gen-2 的实测放出,文本生成视频这件事,突然从“实验室炫技”变成了“普通人也能上手的创作工具”。更重要的是,它正在改写内容创作、影视、游戏,甚至模拟世界的规则。
当大家还沉浸在“AI会画画”的震撼中,一个更危险的能力正在浮出水面:AI开始真正“看懂”图片,并且能和你聊它。MiniGPT-4,这个刚亮相的开源研究项目,用一组演示把多模态AI从概念,直接拉进了可实操阶段。
当所有人都以为算力、数据和资本只会把AI推向更封闭的巨头游戏时,一波开源模型却开始“逆袭”。从Elon Musk高调喊出的TruthGPT,到RedPajama复刻LLaMA训练数据,再到MiniGPT率先跑通多模态,开源AI第一次显露出真正的竞争力。
CLIP这类对比学习模型,被认为是多模态时代的基石。但在一个看似“玩具”的SET纸牌游戏里,它却暴露出一个致命短板:当关系、属性和实体一多,向量维度不够,模型会系统性失明。这不是调参问题,而是容量上限。
很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。
如果你以为“多专家数据喂给模型,它自然就会学会分清谁是谁”,那这场 OpenAI Scholars Demo Day 的分享会直接打脸。Tyna Eloundou 用一个看似优雅、实则极具野心的框架,展示了:我们不仅能让模型学到多种行为,还能在需要时精准切换它们。
这支视频并不是在预测炫酷的未来界面,而是在拆穿一个被长期误用的灵感来源:科幻电影。Patricia Reiners 基于设计研究与真实观察,提出界面正在从“可见的屏幕”走向“无感的协作”,并系统总结了未来接口的关键转向。
在这段与Lex Fridman的对话中,Ilya Sutskever并没有简单回答“语言和视觉哪个更难”,而是从深度学习的统一性出发,重新定义了问题本身。他分享了对计算机视觉、自然语言处理和强化学习之间关系的深刻判断,以及未来AI可能走向“单一架构”的大胆预期。
在这段与Lex Fridman的对话中,Yann LeCun系统阐述了他对“人类级智能”和AGI的怀疑态度。他强调:任何声称接近人类智能的系统,都必须接受严格、可复现的基准测试。比起宏大叙事,LeCun更关心可验证的任务、交互式环境,以及机器真正“学会如何学习”的能力。
在与Lex Fridman的对话中,Yann LeCun直面公众最熟悉的“类人机器人”迷思,解释为什么AI的未来不在于像人,而在于是否具备对现实世界的真正理解。他区分了“具身”和“世界锚定”,并用常识推理与情绪机制,勾勒出一条与主流想象截然不同的AI路径。