Waymo 的 EMMA:自动驾驶如何从“能跑”走向“会思考”
正在加载视频...
视频章节
这场来自 Waymo 的技术分享,讲述了自动驾驶从早期神经网络到基础模型时代的关键跃迁。核心不在于“再堆一点模型”,而是如何用多模态、可解释的方式,解决规模化中最棘手的长尾安全问题。
Waymo 的 EMMA:自动驾驶如何从“能跑”走向“会思考”
这场来自 Waymo 的技术分享,讲述了自动驾驶从早期神经网络到基础模型时代的关键跃迁。核心不在于“再堆一点模型”,而是如何用多模态、可解释的方式,解决规模化中最棘手的长尾安全问题。
从三层神经网络到端到端驾驶:一条并不浪漫的进化路
要理解 Waymo 今天在旧金山“真的能坐”的自动驾驶,得先回看这条并不光鲜的技术演进路线。演讲一开始,Jyh Jing Hwang 就把时间拨回到 1980 年代:那时的自动驾驶研究,本质上只是“三层的简单神经网络”,更多是实验室里的概念验证。
随后几十年,网络逐渐变深,算力逐渐增强。到了 2020 年前后,NVIDIA 等研究机构开始发布端到端驾驶模型(end-to-end driving),也就是直接从传感器输入到转向、加速输出。演讲中播放的一段当年公开视频非常具有说服力:车能跑,但在车道中明显“漂移”。Hwang 直言不讳地评价:“这更像是 L2 技术,你不会真的想坐在里面。”
这个对比很重要。它点出了一个常被忽略的事实:端到端并不等于可用。模型能学到相关性,不代表它理解了驾驶这件事。Waymo 之所以没有直接押注这条路,而是长期坚持结构化系统,是因为他们更早看清了规模化和安全之间的张力。
为什么 Waymo 的 L4 不一样:把“理解世界”拆成三件事
当话题转向 Waymo 当前的 L4 系统时,差距一下子变得直观起来。Waymo 的车已经在旧金山复杂的市中心运行,能稳定避让行人、自行车,处理密集路口。这背后并没有某个“魔法模型”,而是一套高度结构化、但彼此协同的系统。
Hwang 在屏幕上展示了 Waymo 的可视化界面:行人、骑行者、红绿灯、路口拓扑,几乎所有与驾驶相关的要素都被明确标注。“这是系统理解的世界。”他说。随后他把整套系统拆解为三层:感知(perception)、预测(prediction)和规划(planning)。
这种设计看起来传统,却是 Waymo 能在真实城市落地的关键。感知负责‘看清楚’,预测负责‘猜别人要干嘛’,规划负责‘我该怎么走’。Hwang 强调,这是一套“非常复杂、也非常精细的系统”,但它的价值只有一个:解决问题,而不是展示模型有多酷。正因为这种清晰分工,Waymo 才能在旧金山“今天就跑在路上”。
规模化的真正敌人:你一辈子都没见过的“长尾场景”
如果说在一个城市跑通 L4 是第一关,那么真正的难题从规模化开始。Waymo 目前已在 Phoenix、旧金山、奥斯汀和洛杉矶提供无人驾驶服务,但这远不是终点。他们做了一次跨越十多个城市的 road trip,甚至把地图拉到了东京。
问题随之而来:世界并不按训练集分布运行。Hwang 播放了一段“极其混乱”的路口视频:红灯、路障、道路封闭,还有一位交通指挥员在挥手。系统从规则上看是“红灯必须停”,但现实却在要求你继续前进。他用一句话总结这种困境:“Long tails are very challenging to solve.”——这些你一生驾驶中可能都没见过的情况,却决定了系统能否规模化。
这也是传统规则系统和纯端到端模型都容易失效的地方:前者写不完规则,后者没见过样本。Waymo 需要一种能‘理解场景本身’的能力,而不仅是匹配模式。
EMMA 的出现:当基础模型开始“读懂”驾驶场景
解决长尾问题的线索,来自基础模型(foundation model)。Hwang 展示了一个并非来自驾驶的数据例子:向 Gemini 输入一个看似荒诞的场景描述,比如“Angry Birds attacked”。Gemini 不仅能理解场景,还能推断接下来各个主体的行为,并给出“slow down and remain alert”这样的合理建议。
这启发了 Waymo 的研究探索:能否把这种跨任务、跨场景的理解能力,引入自动驾驶?他们将这个原型系统称为 EMMA。最简单的形态下,EMMA 接收车辆 360 度摄像头的视频输入,以及文本形式的导航或指令,输出未来的行驶轨迹(waypoints)。
EMMA 的几个关键词非常激进:camera-only、map-free、自监督学习。这意味着它不依赖高精地图,也不只针对单一任务训练。更重要的是,它不仅给出“怎么开”,还能通过 reasoning channel 解释“为什么这么开”,识别关键对象,做出高层驾驶决策。在研究基准中,EMMA 的 open-loop planner 表现已达到 state-of-the-art。
从性能到安全:为什么“能解释”比“更聪明”更重要
在演讲的最后,话题回到了自动驾驶绕不开的核心:安全。Hwang 并没有回避 EMMA 和端到端模型的不足,比如可解释性和验证难度。但他明确指出,基础模型带来的不只是性能提升,还有新的安全工具。
Waymo 正在结合生成式模型,用视频生成和传感器仿真来做评估:同一个场景,切换下雨与否、白天或夜晚,观察系统行为是否稳定。这些都发生在真实路测之前。评估流程依然包括 open-loop、仿真和真实世界测试,但工具箱正在发生变化。
他的判断相当克制却坚定:基础模型遵循 scaling laws,在更大、更高质量的数据上,理解能力会持续提升;同时,多任务训练带来的泛化能力和可解释性,可能正是下一代自动驾驶系统的关键。EMMA 目前仍是研究原型,但方向已经非常清晰。
总结
这场分享真正有价值的地方,不在于某个模型指标,而在于 Waymo 对自动驾驶路径的判断:先把世界拆清楚,再让模型去理解。EMMA 展示了基础模型在驾驶领域的潜力,但 Waymo 依然把安全、验证和可解释性放在首位。对关注自动驾驶的人来说,这是一次关于“下一步往哪走”的现实答案。
关键词: Waymo, 自动驾驶, 基础模型, EMMA, Gemini
事实核查备注: 视频标题:Waymo's EMMA: Teaching Cars to Think;演讲者:Jyh Jing Hwang(Waymo);提及公司:Waymo、NVIDIA、Google;提及产品/模型:Gemini、EMMA;技术概念:L2/L4 自动驾驶、perception/prediction/planning、foundation model、camera-only、map-free、open-loop planner;运行城市:Phoenix、San Francisco、Austin、Los Angeles;所有引语均为对原意的中文转述