为什么通用机器人现在才真正起步?一场来自Physical Intelligence的现场答案

AI PM 编辑部 · 2025年07月26日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

这场演讲围绕一个核心问题展开:为什么“通用机器人”在今天才变得可行?两位来自Physical Intelligence的研究者,从视觉-语言-动作模型(VLA)的技术突破、数据引擎的构建方式,到真实家庭场景中的机器人演示,给出了一个比“算力更强了”更具体、更残酷也更乐观的答案。

为什么通用机器人现在才真正起步?一场来自Physical Intelligence的现场答案

这场演讲围绕一个核心问题展开:为什么“通用机器人”在今天才变得可行?两位来自Physical Intelligence的研究者,从视觉-语言-动作模型(VLA)的技术突破、数据引擎的构建方式,到真实家庭场景中的机器人演示,给出了一个比“算力更强了”更具体、更残酷也更乐观的答案。

从“会跳舞的机器人”到“能干活的机器人”,到底差了什么?

这一节之所以重要,是因为它直接回应了许多人心中的疑问:机器人看起来炫酷了很多年,为什么直到现在才开始“像个劳动力”?演讲一开始,Quan Vuong 就非常坦率地说,他们的目标是“做一个可以控制任何机器人去完成任何任务的模型”,但他紧接着补了一句:“这不是今天就能完成的事情。”这并不是谦虚,而是对机器人领域长期停滞的真实总结。

他回顾了过去大众对机器人的典型印象:舞蹈、预编程动作、在严格受控环境中的演示。“你看到的是 humanoid 在跳舞,但那背后是精确到毫秒的初始条件控制。”这些系统并不理解世界,只是在重复。真正的转折点,在他们看来,并不是硬件,而是 AI,尤其是多模态模型的浪潮。

Quan 给出的判断非常明确:“真正改变一切的是这波 AI 浪潮。”当模型开始同时理解视觉、语言,并且能够直接输出动作时,机器人第一次有可能不再是“被写死的自动机”,而是一个可以被泛化的智能体。这也解释了他们为什么坚持开源和公开研究——因为这不是单点工程问题,而是一整套科学突破尚未完成的过程。

什么是 VLA?把“看图说话”变成“看世界行动”

理解视觉-语言-动作模型(Vision-Language-Action, VLA)是理解整场演讲的关键。Jost Tobias Springberg 接过话筒后,先从大家熟悉的视觉语言模型(VLM)讲起:它们接收图像和文本,输出的是文本答案。而 VLA 本质上是一次方向性的“转译”。

他用一句话点破核心差异:“我们不是让模型回答问题,而是让它直接产生控制机器人的动作。”在 VLA 中,输入不只是图像和语言指令,还包括机器人自身的状态;输出也不再是文字,而是连续的动作信号,用来驱动真实世界的执行器。

但相似之处也同样重要。VLA 并不是从零开始的全新范式,而是建立在大规模多模态 Transformer 之上的延伸。这意味着,机器人第一次可以继承大模型在理解、泛化上的能力。但与此同时,Toby 也强调了一个现实差异:VLM 的数据来自互联网,而 VLA 的数据必须来自物理世界,昂贵、稀缺、难以规模化,这直接决定了后面所有工程选择。

真正的瓶颈不是模型,而是“数据引擎”

这一节是整场演讲中最具“方法论”价值的部分。Toby 明确指出,如果把 VLA 当作 VLM 的简单下游应用,是一个致命误判。因为在机器人领域,“数据”本身就是产品。

他们展示的路径非常具体:从遥操作系统开始,让人类远程控制机器人,在真实环境中完成任务;所有视觉、状态和动作都会被完整记录下来。随后,这些数据通过软件迁移、清洗和标注,进入模型训练流程。Toby 形容这不是一次性的采集,而是“在构建一个持续运转的数据引擎”。

一个容易被忽略的细节是,这套流程并不追求完美演示,而是追求规模和多样性。他们展示的数据集中包含大量成功 episode,覆盖移动操作(mobile manipulation)等复杂设置。正如他所说的那样:“在这个尺度和多样性下,工程挑战本身就是研究的一部分。”这也解释了为什么机器人智能的进展,看起来总是慢半拍——因为它必须同时对抗物理世界的不确定性。

从 PI-0 到下一代模型:机器人开始展现“泛化”

在技术演进上,他们给出了一个清晰但克制的时间线。早期是概念验证,中期开始出现可运行的系统,而在 2024 年中期,PI-0 成为一个关键节点。这个模型已经可以在较高频率下运行,并完成连续操作。

但真正让现场观众发出惊叹的,是他们随后展示的结果:同一个模型,被放进完全没见过的家庭环境中,面对长时序、需要拆解的任务,依然能够完成。模型会把复杂目标自动拆分成子任务,并持续执行数分钟。Toby 在台上用一句非常朴素的话总结:“这是一种非常酷的泛化能力。”

他们也坦诚地指出,这还不是终点。下一代模型(如他们提到的后续版本)在视觉模型规模、动作专家 Transformer 结构上都会大幅扩展,目标是更难、更长时程的任务。这不是炫技,而是为“机器人真正进入人类环境”铺路。

为什么这件事重要?以及他们还没解决的问题

在演讲接近尾声时,Quan 把话题拉回了“意义”。你看到的不只是一个机器人在新房子里干活,而是一个证据:同一个模型,可能真的可以运行在不同硬件、不同环境之上。这正是他们反复强调开源和公开的原因。

但他也毫不回避最大的科学问题:“最大的瓶颈仍然是数据。”不是算力,不是模型结构,而是如何持续、规模化地获取高质量的真实世界交互数据。演讲最后,他们甚至直接在台上招聘,邀请对这个问题感兴趣的人“发邮件聊聊”。

这并不是一个已经完成的故事,而是一个刚刚开始加速的方向。正如这场演讲本身所传达的信号:机器人终于不再只是展示,而是开始进入现实世界的复杂性。

总结

这场演讲给出的答案并不神秘:机器人“为什么是现在”,不是因为单一突破,而是因为视觉、语言和动作第一次在同一模型中形成闭环。更重要的是,Physical Intelligence 把最大的精力放在数据和系统工程上,而不是概念包装。对读者而言,最大的启发或许在于:真正的通用智能,从来不是一个模型参数的问题,而是一整套与现实世界持续对抗的能力建设。


关键词: 视觉语言动作模型, 多模态, Transformer, 机器人数据引擎, 通用机器人

事实核查备注: 演讲者姓名:Quan Vuong, Jost Tobias Springberg;核心技术名词:Vision-Language-Action (VLA), Vision-Language Model (VLM), Transformer;模型名称:PI-0;关键判断:机器人瓶颈在真实世界数据而非算力;演示内容:同一模型在未见过的家庭环境中完成长时序任务