蚂蚁集团Robbyant开源LingBot-World 实时交互式世界模型提升具身AI能力

22 阅读3分钟开源
蚂蚁集团Robbyant开源LingBot-World 实时交互式世界模型提升具身AI能力

关键亮点

  • 实时交互:模型接受键盘(W/A/S/D)和摄像机动作输入,能够在毫秒级响应下生成连续视频。
  • 长时程生成:在推理阶段可自回归滚动至约10分钟,保持场景结构和几何一致性。
  • 高视觉保真:支持720p分辨率,动态度指标在公开基准VBench上领先同类模型近0.13。
  • 完全开源:代码、模型权重及数据处理管线全部公开,社区可直接复现并二次开发。

技术架构

LingBot-World 基于 Wan2.2(14B 参数的图像‑视频扩散 Transformer)构建,进一步演化为 Mixture‑of‑Experts DiT,拥有两套 14B 参数的专家网络,仅激活一套进行去噪,从而在保持 28B 总容量的同时,推理成本与单专家模型相当。

动作注入 采用 Plücker 嵌入编码摄像机旋转,键盘动作转化为多热向量,随后通过自适应层归一化模块调制 Transformer 隐层,实现动作对生成过程的直接调控。主干网络保持冻结,只微调动作适配层,确保视觉质量不受交互数据规模限制。

实时加速方案

原始模型依赖全局时序注意力和多步扩散,成本高昂。为实时使用,团队推出 LingBot-World‑Fast

  1. 块因果注意力:在每个时间块内部双向注意,块间采用因果方式,支持 KV‑Cache,实现帧流式输出。
  2. 扩散强制蒸馏:学生模型在高噪声阶段学习,并在 0 步骤直接生成清晰帧,配合对抗判别头提升生成质量。
  3. 性能:在单 GPU(480p)下可达 16 FPS,端到端交互延迟低于 1 秒。

评估与对标

在 VBench 上对 100 条 ≥30 秒视频进行评测,LingBot-World 在 Imaging Quality、Aesthetic Quality、Dynamic Degree 三项均领先 Yume‑1.5 与 HY‑World‑1.5,动态度提升 0.124。与交互系统 Matrix‑Game‑2.0、Mirage‑2、Genie‑3 相比,LingBot‑World 在覆盖领域、生成时长、分辨率及实时性上保持唯一优势。

应用前景

  1. 具身AI训练平台:可将生成的视频流直接喂给视觉‑语言‑动作模型(如 Qwen3‑VL‑2B)进行策略学习。
  2. 自动驾驶仿真:通过真实世界车辆轨迹与动作标签,构建可交互的道路场景,降低真实路测成本。
  3. 游戏与虚拟制作:开发者可通过自然语言指令快速搭建并实时操控场景,实现“文本即世界”。
  4. 3D 重建:几何一致的视频序列提供稳健的点云输入,支持室内外结构的自动重建。

结语:LingBot-World 将文本‑视频生成的被动特性彻底转变为可控、长时程的交互式仿真,为具身智能的闭环训练提供了前所未有的底层设施。其完全开源的姿态也为学术界和产业链的协同创新打开了新窗口。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。