Waymo发布Waymo World Model 基于Genie 3打造全新自动驾驶仿真平台
•27 阅读•3分钟•前沿
Waymo自动驾驶Genie 3Waymo World Model多传感器
•27 阅读•3分钟•前沿
背景概述
Waymo近日宣布其下一代自动驾驶仿真核心——Waymo World Model。该模型在Google DeepMind研发的通用世界模型Genie 3之上进行专域后训练,旨在为Waymo的自动驾驶系统提供大规模、可控且高度真实的多传感器模拟环境。
技术实现
- 底层框架:Genie 3原本是一种将文本提示转化为交互式3D环境的通用模型,支持约24fps、720p的实时渲染。Waymo在此基础上加入了自家传感器标定、车体尺寸以及驾驶规则约束。
- 多模态输出:模型同步生成高分辨率相机图像和4D激光雷达点云,确保时间序列上的一致性,直接满足下游感知与决策模块的输入格式。
- 大规模预训练:通过数十亿帧公开视频学习时空结构,再利用Waymo车队的专属数据进行领域适配,实现从2D视频到3D lidar的跨模态迁移。
三大可控维度
- 驾驶动作控制:开发者可注入自定义的油门、刹车、转向指令,生成“如果当初”类的反事实场景,模型在偏离原始轨迹时仍保持画面真实。
- 场景布局控制:支持对道路几何、交通信号、道路使用者位置进行编辑,快速构造碰撞、并线、让行等边缘案例。
- 语言控制:通过自然语言描述天气、时间、甚至异常对象(如大象、火灾),模型即可在同一底图上生成对应的光照、气象及物体变化。
稀有长尾场景的合成能力
得益于广泛的视频预训练,Waymo World Model能够模拟车队从未遇见的极端环境,例如金门大桥的轻雪、热带街道的突如其来的暴风雪、道路两侧的洪水、甚至出现大象、狮子、T‑rex装扮的行人。所有这些并非硬编码规则,而是模型对通用时空结构的自发迁移。
长序列推理与计算效率
传统生成式模型在长时间滚动时易出现画质漂移且算力消耗巨大。Waymo团队发布的高效变体在保持真实感的前提下,将计算成本降低约4倍,支持数分钟甚至上百秒的连续驾驶模拟,显著提升了大规模回归测试的可行性。
行业意义
Waymo World Model将普通的手机或行车记录仪视频转化为与车队日志等价的多传感器仿真,为行业提供了
- 无限扩展的场景库:无需昂贵的激光雷达采集即可获得高质量仿真数据;
- 系统化的安全评估:通过可控的三维编辑,快速生成针对特定算法弱点的压测场景;
- 降低研发成本:高效长滚动与低算力需求让大规模自动驾驶回归测试更具经济性。
Waymo的这一突破标志着生成式AI在自动驾驶仿真领域的首次深度落地,预示着未来仿真平台将更加开放、可编程,并为实现更安全的无人驾驶提供坚实的数据支撑。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。