Google DeepMind推出Project Genie 让用户自行打造交互式游戏世界

背景概述

DeepMind 将世界模型视为通往通用人工智能（AGI）的关键路径。世界模型能够内部构建环境表征，预测未来走向并规划行为。继去年发布的 Genie 3 研究预览后，团队在本月推出面向美国用户的交互式原型 Project Genie，旨在通过游戏与娱乐场景获取真实使用数据。

核心功能

多模态提示：用户可通过文字描述或上传图片提供“世界草图”。
图像生成：Nano Banana Pro 负责将提示转化为初始场景图像，用户可自行微调。
交互式世界生成：Genie 3 基于图像生成可供第一人称或第三人称探索的 3D 环境，生成过程仅需数秒。
时长限制：当前每次会话仅提供 60 秒的生成与导航，受算力预算限制。
输出形式：支持导出探索视频，便于二次创作或分享。

亲身体验

“我让模型构建一座棉花糖城堡，要求采用黏土动画风格。它成功呈现了飘在云端、巧克力河环绕的甜点城堡，视觉上极具童趣。” — 记者 Rebecca Bellan

优势

在艺术化风格（水彩、动漫、卡通）下表现出色，能够快速生成具备可玩性的世界。
文本‑图像‑交互的三段式流程降低了创作门槛。

局限

对写实或电影级画面支持不足，生成的场景常呈现游戏质感而非真实感。
使用真实照片作为基准时，模型经常出现布局错位或色彩失真。
交互控制不够流畅，方向键、空格键响应偶有延迟，导致角色穿墙或移动不稳。

行业竞争格局

World Labs 近期推出商业化世界模型产品 Marble。
视频生成创业公司 Runway 已发布自研世界模型。
前 Meta 首席科学家 Yann LeCun 创办的 AMI Labs 亦聚焦同类技术。

前景展望

DeepMind 表示，Project Genie 仍属实验原型，未来将提升真实感与交互细节，并计划将技术扩展至机器人仿真训练。正如研究总监 Shlomi Fruchter 所言，“我们不把它视作日常产品，而是已经看到一种独特且无法通过其他方式实现的可能性”。随着算力成本逐步下降，世界模型有望从游戏娱乐向工业仿真、机器人学习等更广阔场景渗透。