NVIDIA推出LoRA/DoRA微调方案,提升Cosmos Predict 2.5机器人视频生成质量

35 阅读5分钟前沿
NVIDIA推出LoRA/DoRA微调方案,提升Cosmos Predict 2.5机器人视频生成质量

背景概述

NVIDIA Cosmos Predict 2.5 是一款 2 B 参数的大规模世界模型,能够基于文本、图像或视频片段生成具备物理一致性的高清视频。由于模型体积大,直接全量微调成本高且易出现灾难性遗忘,业界亟需轻量化的适配方案。

微调技术要点

LoRA(Low‑Rank Adaptation)和 DoRA(Decomposed‑RoA)通过在冻结的基础网络中注入低秩适配器,实现参数高效微调。NVIDIA 将适配器插入 DiT 注意力投影(to_q、to_k、to_v、to_out.0)以及前馈层(ff.net.0.proj、ff.net.2),并将 LoRA 参数提升至 float32 以保证 bf16 混合精度下的数值稳定。使用 peftLoraConfig 即可切换 DoRA,只需将 use_dora=True

实验设置与数据

  • 训练数据:92 条机器人抓取演示视频,每段配有描述任务的文本提示;
  • 测试数据:50 条 (文本, 图像) 对,用于评估生成的视频质量;
  • 硬件要求:单卡 80 GB GPU(推荐 H100)可完成微调;8× H100 可将 500 轮训练时间从 17 小时压至 2.5 小时;
  • 软件栈:Python≥3.10、PyTorch 2.5、diffusersacceleratepeft,可选 wandb 监控。

训练与评估结果

模型采用 rectified flow 目标,预测噪声速度并在首两帧保持条件不加噪。实验比较了 LoRA 与 DoRA、rank = 8 与 rank = 32 四种配置,主要指标如下:

  • Temporal / Cross‑view Sampson Error:微调后均显著下降,表明时序平滑性和多视角几何一致性提升;
  • Physical Plausibility(LLM‑as‑Judge):得分从基线的 2.8 提升至 4.2,机器人手部姿态更符合常识;
  • Instruction Following:正确使用左/右手、抓取指定物体的成功率提升约 30%。

DoRA 在低秩 (rank = 8) 场景下略好于 LoRA,主要体现在训练过程的稳定性;在 rank = 32 时两者性能基本持平。

实践指南

export MODEL_NAME="nvidia/Cosmos-Predict2.5-2B"
export DATA_DIR="gr1_dataset/train"
export OUT_DIR=./lora_checkpoints
lora_rank=32
accelerate launch --mixed_precision="bf16" train_cosmos_predict25_lora.py 
  --pretrained_model_name_or_path $MODEL_NAME 
  --revision diffusers/base/post-trained 
  --train_data_dir $DATA_DIR 
  --train_batch_size 1 
  --num_train_epochs 500 
  --checkpointing_epochs 100 
  --lora_rank $lora_rank 
  --lora_alpha $lora_rank 
  --output_dir $OUT_DIR 
  --height 432 --width 768 
  --use_dora  # 如需 DoRA

训练完成后,可通过 eval_cosmos_predict25_lora.py 使用 pipe.load_lora_weights 加载适配器,pipe.fuse_lora 将权重合并至基模型,实现无额外推理开销的部署。

结论与展望

NVIDIA 的实证表明,LoRA/DoRA 微调能够在保持 Cosmos Predict 2.5 强大通用能力的同时,快速适配特定机器人任务场景,显著降低算力门槛。未来可进一步探索更细粒度的适配位置、跨模态指令对齐以及在真实机器人平台上的端到端闭环训练。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。