AllenAI发布MolmoMotion实现语言引导的3D运动预测，刷新动作预判基准

背景与动机

在视觉感知领域，模型大多只能回溯已经发生的运动，而实际应用——如机器人抓取、视频生成——更需要对未来运动进行准确预判。基于此，AI2 团队推出 MolmoMotion，旨在让模型在给定当前视频帧、对象的 3D 查询点以及自然语言指令后，预测这些点在数秒后的 3D 轨迹，从而实现“看见‑想象‑行动”的闭环。

核心模型架构

MolmoMotion 以 Molmo 2 视觉语言模型为骨干，融合三类输入：

RGB 图像 token：提供视觉信息；
文本 token：承载动作描述；
2D 查询点特征 token：对应对象表面的稀疏点。

模型分为两种实现方式：

MolmoMotion‑AR（自回归）：将 3D 坐标序列化为结构化文本，逐步生成每一帧坐标，确保轨迹平滑；
MolmoMotion‑FM（流匹配）：直接在连续 3D 空间中从噪声映射到轨迹，能够更好地表达指令的多模态不确定性。

这种设计使得预测结果即为可直接使用的 3D 点序列，无需额外后处理。

数据集与基准

为训练 MolmoMotion，团队构建了两大资源：

MolmoMotion‑1M：规模达 1.16M 视频、736 种运动类型、5.6K 个独立对象的 3D 点轨迹与对应语言描述，是目前公开的最大规模动作‑点对数据集。
PointMotionBench：人工验证的评测基准，包含 2.7K 剪辑、111 类对象、61 种动作，提供统一的预测精度度量。

数据采集采用自动管线：先在原始视频上进行 2D 点追踪，利用深度估计提升到世界坐标系，再通过空间‑时间一致性过滤、平滑和运动片段裁剪，确保高质量的 3D 轨迹。

实验结果

在 PointMotionBench 上，MolmoMotion‑AR 与 MolmoMotion‑FM 均显著超越现有 3D 运动预测方法，包括像素空间视频生成器、参数化 3D 方法以及常数速度基线，平均误差下降超过 30%。

机器人规划

在 DROID 真实机器人操作数据上微调后，基于 MolmoMotion 的规划策略在 pick‑and‑place 任务中的成功率达 76.3%，相比仅使用 Molmo 2 的 56.0%提升显著，且收敛速度更快。

可控视频生成

将 MolmoMotion 预测的点轨迹作为约束输入到图像‑到‑视频模型（如 CogVideoX‑5B），生成的视频在运动一致性指标上全面领先，仅凭文本指令难以捕捉的细微动作得到显著改善。

局限与未来方向

当前模型在每个对象上仅使用八个查询点，难以完整刻画复杂变形物体的表面细节；此外，对高度不确定的多模态动作仍依赖 FM 变体的噪声映射，预测精度有提升空间。团队计划扩展点数、引入更丰富的几何表示，并探索跨模态协同学习，以进一步推动机器对未来世界的理解。

结语

MolmoMotion 把语言理解、视觉感知与物理运动预测紧密结合，提供了从指令到真实 3D 轨迹的端到端方案。随着模型、数据与基准的开源，业界有望在机器人自主操作、可控视频合成以及更广泛的交互式 AI 场景中快速落地。

声明：本文信息基于 AllenAI 官方博客及公开论文，已作客观整理。