AllenAI发布MolmoMotion实现语言引导的3D运动预测,刷新动作预判基准

背景与动机
在视觉感知领域,模型大多只能回溯已经发生的运动,而实际应用——如机器人抓取、视频生成——更需要对未来运动进行准确预判。基于此,AI2 团队推出 MolmoMotion,旨在让模型在给定当前视频帧、对象的 3D 查询点以及自然语言指令后,预测这些点在数秒后的 3D 轨迹,从而实现“看见‑想象‑行动”的闭环。
核心模型架构
MolmoMotion 以 Molmo 2 视觉语言模型为骨干,融合三类输入:
- RGB 图像 token:提供视觉信息;
- 文本 token:承载动作描述;
- 2D 查询点特征 token:对应对象表面的稀疏点。
模型分为两种实现方式:
- MolmoMotion‑AR(自回归):将 3D 坐标序列化为结构化文本,逐步生成每一帧坐标,确保轨迹平滑;
- MolmoMotion‑FM(流匹配):直接在连续 3D 空间中从噪声映射到轨迹,能够更好地表达指令的多模态不确定性。
这种设计使得预测结果即为可直接使用的 3D 点序列,无需额外后处理。
数据集与基准
为训练 MolmoMotion,团队构建了两大资源:
- MolmoMotion‑1M:规模达 1.16M 视频、736 种运动类型、5.6K 个独立对象的 3D 点轨迹与对应语言描述,是目前公开的最大规模动作‑点对数据集。
- PointMotionBench:人工验证的评测基准,包含 2.7K 剪辑、111 类对象、61 种动作,提供统一的预测精度度量。
数据采集采用自动管线:先在原始视频上进行 2D 点追踪,利用深度估计提升到世界坐标系,再通过空间‑时间一致性过滤、平滑和运动片段裁剪,确保高质量的 3D 轨迹。
实验结果
在 PointMotionBench 上,MolmoMotion‑AR 与 MolmoMotion‑FM 均显著超越现有 3D 运动预测方法,包括像素空间视频生成器、参数化 3D 方法以及常数速度基线,平均误差下降超过 30%。
机器人规划
在 DROID 真实机器人操作数据上微调后,基于 MolmoMotion 的规划策略在 pick‑and‑place 任务中的成功率达 76.3%,相比仅使用 Molmo 2 的 56.0%提升显著,且收敛速度更快。
可控视频生成
将 MolmoMotion 预测的点轨迹作为约束输入到图像‑到‑视频模型(如 CogVideoX‑5B),生成的视频在运动一致性指标上全面领先,仅凭文本指令难以捕捉的细微动作得到显著改善。
局限与未来方向
当前模型在每个对象上仅使用八个查询点,难以完整刻画复杂变形物体的表面细节;此外,对高度不确定的多模态动作仍依赖 FM 变体的噪声映射,预测精度有提升空间。团队计划扩展点数、引入更丰富的几何表示,并探索跨模态协同学习,以进一步推动机器对未来世界的理解。
结语
MolmoMotion 把语言理解、视觉感知与物理运动预测紧密结合,提供了从指令到真实 3D 轨迹的端到端方案。随着模型、数据与基准的开源,业界有望在机器人自主操作、可控视频合成以及更广泛的交互式 AI 场景中快速落地。
声明:本文信息基于 AllenAI 官方博客及公开论文,已作客观整理。