正在加载视频...
视频章节
在这期访谈中,DeepMind研究员谭捷系统讲述了他如何从计算机图形学与强化学习出发,走到通用机器人研究前沿。他分享了机器人为何长期缺乏“常识”、数据墙如何限制进展,以及Gemini Robotics 1.5试图用世界模型和Thinking能力打开新局面的真实思路。
谭捷谈机器人下一跳:从世界模型到Gemini Robotics 1.5
在这期访谈中,DeepMind研究员谭捷系统讲述了他如何从计算机图形学与强化学习出发,走到通用机器人研究前沿。他分享了机器人为何长期缺乏“常识”、数据墙如何限制进展,以及Gemini Robotics 1.5试图用世界模型和Thinking能力打开新局面的真实思路。
为什么硅谷重新押注机器人
这一段讨论的价值在于,它解释了一个背景性转折:为什么在沉寂多年后,机器人再次被认为是“即将发生的最重要变革”。访谈一开始,主持人就提到在硅谷,越来越多人相信机器人是下一轮核心浪潮,但外界对“机器人”这个词本身可能存在误解。谭捷并没有简单附和乐观判断,而是回到技术现实,强调机器人之所以难,是因为它们要在真实世界中运行,而真实世界远比数字世界复杂。
他指出,过去十多年机器人进展缓慢,并非工程师不努力,而是方法论受限。缺乏对物理世界的建模能力,使得机器人系统高度依赖规则和人工设计。这也是为什么一旦环境变化,机器人就会“失灵”。正是在这样的背景下,机器人研究在最近五到十年出现明显拐点——新的学习范式和更强的模型能力,第一次让“通用性”看起来不再是空谈。
从图形学到机器人:一个反直觉的起点
这一节的重要性在于,它揭示了谭捷个人路径如何塑造了他的技术判断。谭捷在自我介绍中提到,自己早期并非传统机器人背景,而是长期从事计算机图形学相关研究,后来加入Google。正是在那个阶段,他感受到学界和工业界对机器人方向的普遍怀疑。
他说,当时“大家是有很多很多怀疑的态度的”,但他反而认为,图形学中对三维世界、物理和渲染的理解,可能是变革机器人的关键工具。这一选择在当时并不主流,却为后来世界模型(World Model)的思路埋下伏笔:如果机器人能像图形系统那样在内部“模拟”世界,就不再只是被动响应传感器信号,而是具备预测和规划能力。这个判断,也成为他持续投入该方向的重要原因。
强化学习与“没有常识”的机器人
理解这一段,能帮助读者抓住机器人智能的核心瓶颈。访谈中,主持人追问谭捷是否从强化学习模型中借鉴方法,谭捷的回答非常坦率。他多次强调一个事实:“机器人是没有 common sense。”
这里的“常识”并不是语言层面的知识,而是对物理因果的直觉理解。强化学习(通过奖励信号反复试错来学习策略)在模拟环境中效果显著,但在真实世界中,试错成本极高。这导致机器人即便学会了某个动作,也难以迁移到新场景。谭捷承认,从他的角度来看,这是机器人落地最难的一步:如何在有限真实数据下,让系统形成稳定、可泛化的世界理解。
Gemini Robotics 1.5:把Thinking加入VLA
这一节是整场访谈中最前沿、也最具信息密度的部分。谭捷介绍了团队最新发布的Gemini Robotics 1.5,并明确指出第一个关键变化是“把 Thinking 加入 VLA”。VLA通常指视觉-语言-动作框架,让机器人能看、能听、能动,但过去缺乏中间的推理层。
谭捷提到,当团队看到这一结果时,“都觉得非常激动人心”。通过引入Thinking能力,机器人不再只是端到端映射,而是可以在动作前进行内部推演。这为后续的motion transfer(动作迁移)和跨场景泛化提供了基础。虽然他没有给出具体指标,但可以确认的是,这一代系统的目标已不再是单一任务,而是更接近通用能力。
数据墙之后:通用机器人的时间表
最后一部分讨论的是所有机器人团队都会撞上的现实问题:数据。谭捷直言不讳地谈到“数据墙”的存在——真实世界的数据不可能无穷无尽。当数据规模成为瓶颈,单纯堆数据的方法就会失效。
正因如此,他提出一个清晰判断:“generalist robots are coming”。在他看来,未来两到三年内,行业将看到机器人从封闭任务走向开放世界探索。这并不意味着问题已经解决,而是研究范式正在发生变化:从依赖人工采集数据,转向依靠模型内部的世界表示与推理能力。对听众来说,这也是理解机器人长期价值的关键视角。
总结
这次访谈的价值,不在于某个炫目的Demo,而在于谭捷清晰地解释了机器人为何长期受限,又是如何一步步接近突破。从图形学到强化学习,再到Gemini Robotics 1.5中的Thinking能力,他反复强调世界模型和常识的重要性。对读者而言,最大的启发或许是:通用机器人不是突然出现的产品,而是一系列长期判断和方法论积累的结果。
关键词: 机器人, 世界模型, 强化学习, Gemini Robotics 1.5, Google
事实核查备注: 人物:谭捷(DeepMind/Google研究员);公司:Google;产品:Gemini Robotics 1.5;技术名词:强化学习、VLA、世界模型;原话引用:“机器人是没有 common sense”“把 Thinking 加入 VLA”“generalist robots are coming”