NVIDIA推出LoRA/DoRA微调方案，提升Cosmos Predict 2.5机器人视频生成质量

背景概述

NVIDIA Cosmos Predict 2.5 是一款 2 B 参数的大规模世界模型，能够基于文本、图像或视频片段生成具备物理一致性的高清视频。由于模型体积大，直接全量微调成本高且易出现灾难性遗忘，业界亟需轻量化的适配方案。

微调技术要点

LoRA（Low‑Rank Adaptation）和 DoRA（Decomposed‑RoA）通过在冻结的基础网络中注入低秩适配器，实现参数高效微调。NVIDIA 将适配器插入 DiT 注意力投影（to_q、to_k、to_v、to_out.0）以及前馈层（ff.net.0.proj、ff.net.2），并将 LoRA 参数提升至 float32 以保证 bf16 混合精度下的数值稳定。使用 peft 的 LoraConfig 即可切换 DoRA，只需将 use_dora=True。

实验设置与数据

训练数据：92 条机器人抓取演示视频，每段配有描述任务的文本提示；
测试数据：50 条 (文本, 图像) 对，用于评估生成的视频质量；
硬件要求：单卡 80 GB GPU（推荐 H100）可完成微调；8× H100 可将 500 轮训练时间从 17 小时压至 2.5 小时；
软件栈：Python≥3.10、PyTorch 2.5、diffusers、accelerate、peft，可选 wandb 监控。

训练与评估结果

模型采用 rectified flow 目标，预测噪声速度并在首两帧保持条件不加噪。实验比较了 LoRA 与 DoRA、rank = 8 与 rank = 32 四种配置，主要指标如下：

Temporal / Cross‑view Sampson Error：微调后均显著下降，表明时序平滑性和多视角几何一致性提升；
Physical Plausibility（LLM‑as‑Judge）：得分从基线的 2.8 提升至 4.2，机器人手部姿态更符合常识；
Instruction Following：正确使用左/右手、抓取指定物体的成功率提升约 30%。

DoRA 在低秩 (rank = 8) 场景下略好于 LoRA，主要体现在训练过程的稳定性；在 rank = 32 时两者性能基本持平。

实践指南

export MODEL_NAME="nvidia/Cosmos-Predict2.5-2B"
export DATA_DIR="gr1_dataset/train"
export OUT_DIR=./lora_checkpoints
lora_rank=32
accelerate launch --mixed_precision="bf16" train_cosmos_predict25_lora.py 
  --pretrained_model_name_or_path $MODEL_NAME 
  --revision diffusers/base/post-trained 
  --train_data_dir $DATA_DIR 
  --train_batch_size 1 
  --num_train_epochs 500 
  --checkpointing_epochs 100 
  --lora_rank $lora_rank 
  --lora_alpha $lora_rank 
  --output_dir $OUT_DIR 
  --height 432 --width 768 
  --use_dora  # 如需 DoRA

训练完成后，可通过 eval_cosmos_predict25_lora.py 使用 pipe.load_lora_weights 加载适配器，pipe.fuse_lora 将权重合并至基模型，实现无额外推理开销的部署。

结论与展望

NVIDIA 的实证表明，LoRA/DoRA 微调能够在保持 Cosmos Predict 2.5 强大通用能力的同时，快速适配特定机器人任务场景，显著降低算力门槛。未来可进一步探索更细粒度的适配位置、跨模态指令对齐以及在真实机器人平台上的端到端闭环训练。