Google推出Project Genie街景功能，让AI虚拟世界接轨真实地点

背景与意义

Google DeepMind近期发布的Project Genie是一款面向生成式世界建模的通用模型，已被用于机器人学习、自动驾驶仿真等科研场景。此次在Project Genie中加入Street View锚定能力，旨在让模型生成的虚拟环境能够直接映射到真实世界的地理影像，从而降低AI在真实场景下的感知与决策成本。

新增街景锚定功能

地图定位：在Genie界面点击Maps图钉，即可选取美国境内任意街景地点作为场景起点。
风格切换：支持“Desert Sands”“Stone Age”“Ocean World”等多种艺术风格，用户可在真实地点上叠加创意渲染。
角色描述：输入角色或物体（如动漫英雄、黏土怪兽），系统会在选定的真实地点生成交互式场景。

“想象金门大桥沉入海底的景象，只需选‘Ocean World’样式，即可看到鱼群围绕桥体游弋。”——项目负责人Diego Rivas

关键特性概览

真实影像 grounding：利用Maps Imagery Grounding技术，将Street View的全景影像作为生成模型的空间基准。
跨模态交互：支持文本指令、图像示例以及风格提示，实现文本‑图像‑场景的多模态协同创作。
全球可用性：首批在美国开放，后续将逐步覆盖更多国家和地区。
面向 AI Ultra 订阅者：该功能随Google AI Ultra（每月200美元）全球 rollout，面向18岁以上用户。

市场与未来展望

Project Genie的街景锚定为AI代理提供了“真实感知层”，有望加速以下领域的发展：

机器人与自动驾驶仿真：在真实道路影像上进行高保真训练，降低实际道路测试成本。
游戏与沉浸式内容创作：创作者可基于真实地标快速生成交互式关卡，提升内容产出效率。
教育与文化遗产保护：通过历史风格渲染，让学生在虚拟环境中体验过去的城市面貌。

Google 表示，后续将继续扩展Street View覆盖范围，并优化模型的空间一致性和渲染细节，以实现更大尺度的真实‑虚拟混合应用。

参考链接

Google DeepMind 官方博客（发布原文）
Google Maps Imagery Grounding 技术文档
Google AI Ultra 订阅页面