Google向AI Ultra用户开放Project Genie实验性世界模型
•28 阅读•3分钟•前沿
GoogleGeminiDeepMindGenie 3
•28 阅读•3分钟•前沿

项目概述
Google DeepMind 在 2025 年底公开的 Genie 3 研究模型,现以 Project Genie 原型形式向美国 AI Ultra 订阅用户开放。该原型是基于 Gemini 大模型、Nano Banana Pro 与 Genie 3 联合驱动的网页应用,旨在让普通用户通过自然语言和图像提示,实时生成并漫游无限可能的三维场景。
关键功能
- 世界草绘:用户输入文字或上传图片,即可快速生成可扩展的交互式环境;Nano Banana Pro 提供预览与微调,确保生成效果更贴合创意。
- 实时探索:系统在用户移动时即时预测前方路径,支持第一人称、第三人称视角切换,且可自由切换步行、骑行、飞行等移动方式。
- 世界 Remix:支持在已有场景基础上追加提示,生成新版本;用户还能下载探索过程视频用于分享或二次创作。
技术亮点
- 实时路径生成:Genie 3 采用动态场景预测技术,能够在毫秒级别计算物理交互和环境变化,突破传统静态 3D 快照的局限。
- 跨模态融合:文字、图像与模型内部的 3D 表征相互映射,实现从平面提示到立体世界的自然过渡。
- 一致性与可控性:通过 Nano Banana Pro 的细粒度调节,用户可在生成前预览并微调场景细节,提高创作的可预测性。
责任与局限
- 真实感不足:当前生成的世界在细节真实度和光照效果上仍有差距,部分场景可能出现与提示不完全匹配的情况。
- 角色控制:人物动作和交互的延迟仍高于理想水平,复杂行为的响应尚不稳定。
- 时长限制:每次生成的交互时长上限为 60 秒,后续版本计划放宽此限制。
市场与前景
Project Genie 的公开测试为 Google 探索通用人工智能(AGI)提供了宝贵的用户行为数据。通过让非专业用户直接使用世界模型,Google 能够收集多样化的交互场景,迭代模型的通用性与安全性。未来,Google 计划将该技术扩展至教育、游戏、虚拟旅游以及机器人仿真等领域,并逐步向更多地区开放。
“我们希望通过真实用户的创作,了解世界模型在不同应用场景下的潜在价值与风险。”——Google DeepMind 项目负责人
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。