Google DeepMind推出Project Genie 让用户自行打造交互式游戏世界
•25 阅读•3分钟•前沿
GoogleDeepMindGenie 3Project Genie
Rebecca Bellan••25 阅读•3分钟•前沿

背景概述
DeepMind 将世界模型视为通往通用人工智能(AGI)的关键路径。世界模型能够内部构建环境表征,预测未来走向并规划行为。继去年发布的 Genie 3 研究预览后,团队在本月推出面向美国用户的交互式原型 Project Genie,旨在通过游戏与娱乐场景获取真实使用数据。
核心功能
- 多模态提示:用户可通过文字描述或上传图片提供“世界草图”。
- 图像生成:Nano Banana Pro 负责将提示转化为初始场景图像,用户可自行微调。
- 交互式世界生成:Genie 3 基于图像生成可供第一人称或第三人称探索的 3D 环境,生成过程仅需数秒。
- 时长限制:当前每次会话仅提供 60 秒的生成与导航,受算力预算限制。
- 输出形式:支持导出探索视频,便于二次创作或分享。
亲身体验
“我让模型构建一座棉花糖城堡,要求采用黏土动画风格。它成功呈现了飘在云端、巧克力河环绕的甜点城堡,视觉上极具童趣。” — 记者 Rebecca Bellan
优势
- 在艺术化风格(水彩、动漫、卡通)下表现出色,能够快速生成具备可玩性的世界。
- 文本‑图像‑交互的三段式流程降低了创作门槛。
局限
- 对写实或电影级画面支持不足,生成的场景常呈现游戏质感而非真实感。
- 使用真实照片作为基准时,模型经常出现布局错位或色彩失真。
- 交互控制不够流畅,方向键、空格键响应偶有延迟,导致角色穿墙或移动不稳。
行业竞争格局
- World Labs 近期推出商业化世界模型产品 Marble。
- 视频生成创业公司 Runway 已发布自研世界模型。
- 前 Meta 首席科学家 Yann LeCun 创办的 AMI Labs 亦聚焦同类技术。
前景展望
DeepMind 表示,Project Genie 仍属实验原型,未来将提升真实感与交互细节,并计划将技术扩展至机器人仿真训练。正如研究总监 Shlomi Fruchter 所言,“我们不把它视作日常产品,而是已经看到一种独特且无法通过其他方式实现的可能性”。随着算力成本逐步下降,世界模型有望从游戏娱乐向工业仿真、机器人学习等更广阔场景渗透。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。