AllenAI发布MolmoMotion实现语言引导的3D运动预测,刷新动作预判基准

3 阅读4分钟前沿
AllenAI发布MolmoMotion实现语言引导的3D运动预测,刷新动作预判基准

背景与动机

在视觉感知领域,模型大多只能回溯已经发生的运动,而实际应用——如机器人抓取、视频生成——更需要对未来运动进行准确预判。基于此,AI2 团队推出 MolmoMotion,旨在让模型在给定当前视频帧、对象的 3D 查询点以及自然语言指令后,预测这些点在数秒后的 3D 轨迹,从而实现“看见‑想象‑行动”的闭环。

核心模型架构

MolmoMotion 以 Molmo 2 视觉语言模型为骨干,融合三类输入:

  • RGB 图像 token:提供视觉信息;
  • 文本 token:承载动作描述;
  • 2D 查询点特征 token:对应对象表面的稀疏点。

模型分为两种实现方式:

  • MolmoMotion‑AR(自回归):将 3D 坐标序列化为结构化文本,逐步生成每一帧坐标,确保轨迹平滑;
  • MolmoMotion‑FM(流匹配):直接在连续 3D 空间中从噪声映射到轨迹,能够更好地表达指令的多模态不确定性。

这种设计使得预测结果即为可直接使用的 3D 点序列,无需额外后处理。

数据集与基准

为训练 MolmoMotion,团队构建了两大资源:

  • MolmoMotion‑1M:规模达 1.16M 视频、736 种运动类型、5.6K 个独立对象的 3D 点轨迹与对应语言描述,是目前公开的最大规模动作‑点对数据集。
  • PointMotionBench:人工验证的评测基准,包含 2.7K 剪辑、111 类对象、61 种动作,提供统一的预测精度度量。

数据采集采用自动管线:先在原始视频上进行 2D 点追踪,利用深度估计提升到世界坐标系,再通过空间‑时间一致性过滤、平滑和运动片段裁剪,确保高质量的 3D 轨迹。

实验结果

在 PointMotionBench 上,MolmoMotion‑AR 与 MolmoMotion‑FM 均显著超越现有 3D 运动预测方法,包括像素空间视频生成器、参数化 3D 方法以及常数速度基线,平均误差下降超过 30%。

机器人规划

在 DROID 真实机器人操作数据上微调后,基于 MolmoMotion 的规划策略在 pick‑and‑place 任务中的成功率达 76.3%,相比仅使用 Molmo 2 的 56.0%提升显著,且收敛速度更快。

可控视频生成

将 MolmoMotion 预测的点轨迹作为约束输入到图像‑到‑视频模型(如 CogVideoX‑5B),生成的视频在运动一致性指标上全面领先,仅凭文本指令难以捕捉的细微动作得到显著改善。

局限与未来方向

当前模型在每个对象上仅使用八个查询点,难以完整刻画复杂变形物体的表面细节;此外,对高度不确定的多模态动作仍依赖 FM 变体的噪声映射,预测精度有提升空间。团队计划扩展点数、引入更丰富的几何表示,并探索跨模态协同学习,以进一步推动机器对未来世界的理解。

结语

MolmoMotion 把语言理解、视觉感知与物理运动预测紧密结合,提供了从指令到真实 3D 轨迹的端到端方案。随着模型、数据与基准的开源,业界有望在机器人自主操作、可控视频合成以及更广泛的交互式 AI 场景中快速落地。

声明:本文信息基于 AllenAI 官方博客及公开论文,已作客观整理。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。