NVIDIA推出LoRA/DoRA微调方案,提升Cosmos Predict 2.5机器人视频生成质量

背景概述
NVIDIA Cosmos Predict 2.5 是一款 2 B 参数的大规模世界模型,能够基于文本、图像或视频片段生成具备物理一致性的高清视频。由于模型体积大,直接全量微调成本高且易出现灾难性遗忘,业界亟需轻量化的适配方案。
微调技术要点
LoRA(Low‑Rank Adaptation)和 DoRA(Decomposed‑RoA)通过在冻结的基础网络中注入低秩适配器,实现参数高效微调。NVIDIA 将适配器插入 DiT 注意力投影(to_q、to_k、to_v、to_out.0)以及前馈层(ff.net.0.proj、ff.net.2),并将 LoRA 参数提升至 float32 以保证 bf16 混合精度下的数值稳定。使用 peft 的 LoraConfig 即可切换 DoRA,只需将 use_dora=True。
实验设置与数据
- 训练数据:92 条机器人抓取演示视频,每段配有描述任务的文本提示;
- 测试数据:50 条 (文本, 图像) 对,用于评估生成的视频质量;
- 硬件要求:单卡 80 GB GPU(推荐 H100)可完成微调;8× H100 可将 500 轮训练时间从 17 小时压至 2.5 小时;
- 软件栈:Python≥3.10、PyTorch 2.5、
diffusers、accelerate、peft,可选wandb监控。
训练与评估结果
模型采用 rectified flow 目标,预测噪声速度并在首两帧保持条件不加噪。实验比较了 LoRA 与 DoRA、rank = 8 与 rank = 32 四种配置,主要指标如下:
- Temporal / Cross‑view Sampson Error:微调后均显著下降,表明时序平滑性和多视角几何一致性提升;
- Physical Plausibility(LLM‑as‑Judge):得分从基线的 2.8 提升至 4.2,机器人手部姿态更符合常识;
- Instruction Following:正确使用左/右手、抓取指定物体的成功率提升约 30%。
DoRA 在低秩 (rank = 8) 场景下略好于 LoRA,主要体现在训练过程的稳定性;在 rank = 32 时两者性能基本持平。
实践指南
export MODEL_NAME="nvidia/Cosmos-Predict2.5-2B"
export DATA_DIR="gr1_dataset/train"
export OUT_DIR=./lora_checkpoints
lora_rank=32
accelerate launch --mixed_precision="bf16" train_cosmos_predict25_lora.py
--pretrained_model_name_or_path $MODEL_NAME
--revision diffusers/base/post-trained
--train_data_dir $DATA_DIR
--train_batch_size 1
--num_train_epochs 500
--checkpointing_epochs 100
--lora_rank $lora_rank
--lora_alpha $lora_rank
--output_dir $OUT_DIR
--height 432 --width 768
--use_dora # 如需 DoRA
训练完成后,可通过 eval_cosmos_predict25_lora.py 使用 pipe.load_lora_weights 加载适配器,pipe.fuse_lora 将权重合并至基模型,实现无额外推理开销的部署。
结论与展望
NVIDIA 的实证表明,LoRA/DoRA 微调能够在保持 Cosmos Predict 2.5 强大通用能力的同时,快速适配特定机器人任务场景,显著降低算力门槛。未来可进一步探索更细粒度的适配位置、跨模态指令对齐以及在真实机器人平台上的端到端闭环训练。