NVIDIA发布SANA‑WM实现单卡分钟级720p视频生成

背景与意义

世界模型是让 AI 能够从单帧图像和动作序列合成连续视频的关键技术，广泛用于具身智能、仿真和机器人学习。传统模型在生成分钟级高分辨率视频时往往需要多卡集群，成本高昂且难以落地。NVIDIA 的 SANA‑WM 通过四项核心设计，实现了单卡（RTX 5090）即可生成 60 秒、720p 视频，开启了开源高效视频生成的新篇章。

核心架构

Hybrid Linear Attention + Gated DeltaNet (GDN)：将大部分注意力块替换为帧级 GDN，利用衰减门和 Delta‑rule 让状态保持常数大小，避免软最大注意力的二次增长。
双分支相机控制：
- 粗粒度分支（UCPE）在潜在帧尺度上注入相机位姿信息，捕获全局轨迹结构；
- 细粒度分支（Plücker mixing）在每个 VAE 时间步内对八帧原始图像的光线进行 6D 表示，再注入自注意力输出，补足细节。
两阶段生成管线：第一阶段生成时空一致的粗视频，第二阶段使用 17 B LTX‑2 模型的 LoRA 适配器进行精炼，仅需 3 步欧拉去噪即可显著降低长时序漂移。
鲁棒数据标注：基于改进的 VIPE 引擎，结合 Pi3X 深度后端与 MoGe‑2 进行度量尺度标注，并对焦距、主点做逐帧优化，构建了 212 975 条 6‑DoF 标注剪辑。

训练与算力

前期适配：在 64 块 H100 上对 LTX‑2 VAE 进行约 3.5 天的适配。
主训练：四阶段渐进式训练共约 15 天，涵盖 GDN 适配、混合注意力、全长 961 帧训练以及自回归蒸馏。
自定义 Triton 核心：对 GDN 扫描和门控操作进行融合，实现 1.5‑2× 的训练加速。

性能评测

指标	Simple	Hard
旋转误差 (°)	4.50	8.34
平移误差 (m)	1.39	1.39
CamMC	1.41	1.44
VBench 综合得分	80.62	81.89
吞吐 (8×H100)	22.0 vid/h	—

相比 LingBot‑World（14 B+14 B，8 GPU）和 HY‑WorldPlay（8 B），SANA‑WM 在相同 720p 分辨率下保持相当或更佳的视觉质量，却拥有 36 倍 的吞吐优势，显著降低显存占用（全管线 74.7 GB）。

影响与展望

SANA‑WM 的单卡可部署特性为中小团队提供了 低成本 的高质量视频生成工具，推动生成式 AI 在游戏、影视前期制作和虚拟现实等行业的落地。未来工作可进一步引入显式 3D 场景记忆，以缓解动态场景漂移问题，并探索更高分辨率（4K）和更长时序的扩展。

获取方式

项目主页：https://nvlabs.github.io/Sana/WM/
代码仓库：git clone https://github.com/NVlabs/Sana.git
模型权重遵循 Apache 2.0 许可证，数据集许可请参见论文附录。

“SANA‑WM 将分钟级、720p、相机控制的视频生成从大规模算力需求中解放出来，为生成式 AI 的实用化提供了可复制的路径。” — NVIDIA 研究团队