NVIDIA发布SANA‑WM实现单卡分钟级720p视频生成

32 阅读4分钟前沿
NVIDIA发布SANA‑WM实现单卡分钟级720p视频生成

背景与意义

世界模型是让 AI 能够从单帧图像和动作序列合成连续视频的关键技术,广泛用于具身智能、仿真和机器人学习。传统模型在生成分钟级高分辨率视频时往往需要多卡集群,成本高昂且难以落地。NVIDIA 的 SANA‑WM 通过四项核心设计,实现了 单卡(RTX 5090)即可生成 60 秒、720p 视频,开启了开源高效视频生成的新篇章。

核心架构

  • Hybrid Linear Attention + Gated DeltaNet (GDN):将大部分注意力块替换为帧级 GDN,利用衰减门和 Delta‑rule 让状态保持常数大小,避免软最大注意力的二次增长。
  • 双分支相机控制
    • 粗粒度分支(UCPE)在潜在帧尺度上注入相机位姿信息,捕获全局轨迹结构;
    • 细粒度分支(Plücker mixing)在每个 VAE 时间步内对八帧原始图像的光线进行 6D 表示,再注入自注意力输出,补足细节。
  • 两阶段生成管线:第一阶段生成时空一致的粗视频,第二阶段使用 17 B LTX‑2 模型的 LoRA 适配器进行精炼,仅需 3 步欧拉去噪即可显著降低长时序漂移。
  • 鲁棒数据标注:基于改进的 VIPE 引擎,结合 Pi3X 深度后端与 MoGe‑2 进行度量尺度标注,并对焦距、主点做逐帧优化,构建了 212 975 条 6‑DoF 标注剪辑。

训练与算力

  • 前期适配:在 64 块 H100 上对 LTX‑2 VAE 进行约 3.5 天的适配。
  • 主训练:四阶段渐进式训练共约 15 天,涵盖 GDN 适配、混合注意力、全长 961 帧训练以及自回归蒸馏。
  • 自定义 Triton 核心:对 GDN 扫描和门控操作进行融合,实现 1.5‑2× 的训练加速。

性能评测

指标SimpleHard
旋转误差 (°)4.508.34
平移误差 (m)1.391.39
CamMC1.411.44
VBench 综合得分80.6281.89
吞吐 (8×H100)22.0 vid/h

相比 LingBot‑World(14 B+14 B,8 GPU)和 HY‑WorldPlay(8 B),SANA‑WM 在相同 720p 分辨率下保持相当或更佳的视觉质量,却拥有 36 倍 的吞吐优势,显著降低显存占用(全管线 74.7 GB)。

影响与展望

SANA‑WM 的单卡可部署特性为中小团队提供了 低成本 的高质量视频生成工具,推动生成式 AI 在游戏、影视前期制作和虚拟现实等行业的落地。未来工作可进一步引入显式 3D 场景记忆,以缓解动态场景漂移问题,并探索更高分辨率(4K)和更长时序的扩展。

获取方式

  • 项目主页:https://nvlabs.github.io/Sana/WM/
  • 代码仓库:git clone https://github.com/NVlabs/Sana.git
  • 模型权重遵循 Apache 2.0 许可证,数据集许可请参见论文附录。

“SANA‑WM 将分钟级、720p、相机控制的视频生成从大规模算力需求中解放出来,为生成式 AI 的实用化提供了可复制的路径。” — NVIDIA 研究团队

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。