NVIDIA发布SANA‑WM实现单卡分钟级720p视频生成
•32 阅读•4分钟•前沿
NVIDIASANA-WM720p视频
•32 阅读•4分钟•前沿

背景与意义
世界模型是让 AI 能够从单帧图像和动作序列合成连续视频的关键技术,广泛用于具身智能、仿真和机器人学习。传统模型在生成分钟级高分辨率视频时往往需要多卡集群,成本高昂且难以落地。NVIDIA 的 SANA‑WM 通过四项核心设计,实现了 单卡(RTX 5090)即可生成 60 秒、720p 视频,开启了开源高效视频生成的新篇章。
核心架构
- Hybrid Linear Attention + Gated DeltaNet (GDN):将大部分注意力块替换为帧级 GDN,利用衰减门和 Delta‑rule 让状态保持常数大小,避免软最大注意力的二次增长。
- 双分支相机控制:
- 粗粒度分支(UCPE)在潜在帧尺度上注入相机位姿信息,捕获全局轨迹结构;
- 细粒度分支(Plücker mixing)在每个 VAE 时间步内对八帧原始图像的光线进行 6D 表示,再注入自注意力输出,补足细节。
- 两阶段生成管线:第一阶段生成时空一致的粗视频,第二阶段使用 17 B LTX‑2 模型的 LoRA 适配器进行精炼,仅需 3 步欧拉去噪即可显著降低长时序漂移。
- 鲁棒数据标注:基于改进的 VIPE 引擎,结合 Pi3X 深度后端与 MoGe‑2 进行度量尺度标注,并对焦距、主点做逐帧优化,构建了 212 975 条 6‑DoF 标注剪辑。
训练与算力
- 前期适配:在 64 块 H100 上对 LTX‑2 VAE 进行约 3.5 天的适配。
- 主训练:四阶段渐进式训练共约 15 天,涵盖 GDN 适配、混合注意力、全长 961 帧训练以及自回归蒸馏。
- 自定义 Triton 核心:对 GDN 扫描和门控操作进行融合,实现 1.5‑2× 的训练加速。
性能评测
| 指标 | Simple | Hard |
|---|---|---|
| 旋转误差 (°) | 4.50 | 8.34 |
| 平移误差 (m) | 1.39 | 1.39 |
| CamMC | 1.41 | 1.44 |
| VBench 综合得分 | 80.62 | 81.89 |
| 吞吐 (8×H100) | 22.0 vid/h | — |
相比 LingBot‑World(14 B+14 B,8 GPU)和 HY‑WorldPlay(8 B),SANA‑WM 在相同 720p 分辨率下保持相当或更佳的视觉质量,却拥有 36 倍 的吞吐优势,显著降低显存占用(全管线 74.7 GB)。
影响与展望
SANA‑WM 的单卡可部署特性为中小团队提供了 低成本 的高质量视频生成工具,推动生成式 AI 在游戏、影视前期制作和虚拟现实等行业的落地。未来工作可进一步引入显式 3D 场景记忆,以缓解动态场景漂移问题,并探索更高分辨率(4K)和更长时序的扩展。
获取方式
- 项目主页:https://nvlabs.github.io/Sana/WM/
- 代码仓库:
git clone https://github.com/NVlabs/Sana.git - 模型权重遵循 Apache 2.0 许可证,数据集许可请参见论文附录。
“SANA‑WM 将分钟级、720p、相机控制的视频生成从大规模算力需求中解放出来,为生成式 AI 的实用化提供了可复制的路径。” — NVIDIA 研究团队
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。