蚂蚁集团Robbyant开源LingBot-World 实时交互式世界模型提升具身AI能力

关键亮点

实时交互：模型接受键盘（W/A/S/D）和摄像机动作输入，能够在毫秒级响应下生成连续视频。
长时程生成：在推理阶段可自回归滚动至约10分钟，保持场景结构和几何一致性。
高视觉保真：支持720p分辨率，动态度指标在公开基准VBench上领先同类模型近0.13。
完全开源：代码、模型权重及数据处理管线全部公开，社区可直接复现并二次开发。

技术架构

LingBot-World 基于 Wan2.2（14B 参数的图像‑视频扩散 Transformer）构建，进一步演化为 Mixture‑of‑Experts DiT，拥有两套 14B 参数的专家网络，仅激活一套进行去噪，从而在保持 28B 总容量的同时，推理成本与单专家模型相当。

动作注入 采用 Plücker 嵌入编码摄像机旋转，键盘动作转化为多热向量，随后通过自适应层归一化模块调制 Transformer 隐层，实现动作对生成过程的直接调控。主干网络保持冻结，只微调动作适配层，确保视觉质量不受交互数据规模限制。

实时加速方案

原始模型依赖全局时序注意力和多步扩散，成本高昂。为实时使用，团队推出 LingBot-World‑Fast：

块因果注意力：在每个时间块内部双向注意，块间采用因果方式，支持 KV‑Cache，实现帧流式输出。
扩散强制蒸馏：学生模型在高噪声阶段学习，并在 0 步骤直接生成清晰帧，配合对抗判别头提升生成质量。
性能：在单 GPU（480p）下可达 16 FPS，端到端交互延迟低于 1 秒。

评估与对标

在 VBench 上对 100 条 ≥30 秒视频进行评测，LingBot-World 在 Imaging Quality、Aesthetic Quality、Dynamic Degree 三项均领先 Yume‑1.5 与 HY‑World‑1.5，动态度提升 0.124。与交互系统 Matrix‑Game‑2.0、Mirage‑2、Genie‑3 相比，LingBot‑World 在覆盖领域、生成时长、分辨率及实时性上保持唯一优势。

应用前景

具身AI训练平台：可将生成的视频流直接喂给视觉‑语言‑动作模型（如 Qwen3‑VL‑2B）进行策略学习。
自动驾驶仿真：通过真实世界车辆轨迹与动作标签，构建可交互的道路场景，降低真实路测成本。
游戏与虚拟制作：开发者可通过自然语言指令快速搭建并实时操控场景，实现“文本即世界”。
3D 重建：几何一致的视频序列提供稳健的点云输入，支持室内外结构的自动重建。

结语：LingBot-World 将文本‑视频生成的被动特性彻底转变为可控、长时程的交互式仿真，为具身智能的闭环训练提供了前所未有的底层设施。其完全开源的姿态也为学术界和产业链的协同创新打开了新窗口。