Waymo发布Waymo World Model 基于Genie 3打造全新自动驾驶仿真平台

背景概述

Waymo近日宣布其下一代自动驾驶仿真核心——Waymo World Model。该模型在Google DeepMind研发的通用世界模型Genie 3之上进行专域后训练，旨在为Waymo的自动驾驶系统提供大规模、可控且高度真实的多传感器模拟环境。

底层框架：Genie 3原本是一种将文本提示转化为交互式3D环境的通用模型，支持约24fps、720p的实时渲染。Waymo在此基础上加入了自家传感器标定、车体尺寸以及驾驶规则约束。
多模态输出：模型同步生成高分辨率相机图像和4D激光雷达点云，确保时间序列上的一致性，直接满足下游感知与决策模块的输入格式。
大规模预训练：通过数十亿帧公开视频学习时空结构，再利用Waymo车队的专属数据进行领域适配，实现从2D视频到3D lidar的跨模态迁移。

得益于广泛的视频预训练，Waymo World Model能够模拟车队从未遇见的极端环境，例如金门大桥的轻雪、热带街道的突如其来的暴风雪、道路两侧的洪水、甚至出现大象、狮子、T‑rex装扮的行人。所有这些并非硬编码规则，而是模型对通用时空结构的自发迁移。

传统生成式模型在长时间滚动时易出现画质漂移且算力消耗巨大。Waymo团队发布的高效变体在保持真实感的前提下，将计算成本降低约4倍，支持数分钟甚至上百秒的连续驾驶模拟，显著提升了大规模回归测试的可行性。

Waymo World Model将普通的手机或行车记录仪视频转化为与车队日志等价的多传感器仿真，为行业提供了

Waymo的这一突破标志着生成式AI在自动驾驶仿真领域的首次深度落地，预示着未来仿真平台将更加开放、可编程，并为实现更安全的无人驾驶提供坚实的数据支撑。