Google向AI Ultra用户开放Project Genie实验性世界模型

项目概述

Google DeepMind 在 2025 年底公开的 Genie 3 研究模型，现以 Project Genie 原型形式向美国 AI Ultra 订阅用户开放。该原型是基于 Gemini 大模型、Nano Banana Pro 与 Genie 3 联合驱动的网页应用，旨在让普通用户通过自然语言和图像提示，实时生成并漫游无限可能的三维场景。

关键功能

世界草绘：用户输入文字或上传图片，即可快速生成可扩展的交互式环境；Nano Banana Pro 提供预览与微调，确保生成效果更贴合创意。
实时探索：系统在用户移动时即时预测前方路径，支持第一人称、第三人称视角切换，且可自由切换步行、骑行、飞行等移动方式。
世界 Remix：支持在已有场景基础上追加提示，生成新版本；用户还能下载探索过程视频用于分享或二次创作。

技术亮点

实时路径生成：Genie 3 采用动态场景预测技术，能够在毫秒级别计算物理交互和环境变化，突破传统静态 3D 快照的局限。
跨模态融合：文字、图像与模型内部的 3D 表征相互映射，实现从平面提示到立体世界的自然过渡。
一致性与可控性：通过 Nano Banana Pro 的细粒度调节，用户可在生成前预览并微调场景细节，提高创作的可预测性。

责任与局限

真实感不足：当前生成的世界在细节真实度和光照效果上仍有差距，部分场景可能出现与提示不完全匹配的情况。
角色控制：人物动作和交互的延迟仍高于理想水平，复杂行为的响应尚不稳定。
时长限制：每次生成的交互时长上限为 60 秒，后续版本计划放宽此限制。

市场与前景

Project Genie 的公开测试为 Google 探索通用人工智能（AGI）提供了宝贵的用户行为数据。通过让非专业用户直接使用世界模型，Google 能够收集多样化的交互场景，迭代模型的通用性与安全性。未来，Google 计划将该技术扩展至教育、游戏、虚拟旅游以及机器人仿真等领域，并逐步向更多地区开放。

“我们希望通过真实用户的创作，了解世界模型在不同应用场景下的潜在价值与风险。”——Google DeepMind 项目负责人