NVIDIA发布ASPIRE框架:自我改进机器人程序实现31%零样本长任务成功率
背景与挑战
传统机器人编程需要人工整合感知、运动规划和接触动力学等多模态信息,成本高且难以规模化。近期的"代码即策略"(code‑as‑policy)方法让大语言模型直接生成可执行的机器人程序,提升了可解释性和可调试性。但现有系统仅在任务结束后获得粗粒度的成功/失败信号,无法定位具体失误环节,且每次任务完成后所学知识会被丢弃,导致学习效率低下。
ASPIRE 工作原理
ASPIRE(Agentic Skill Programming through Iterative Robot Exploration)采用三大核心模块:
- Coordinator‑Actor 架构:中心协调器维护共享技能库,调度多个编码演员(Actor)并仅在库中传递经验证的技能片段。
- 细粒度闭环执行引擎:对每一次感知、规划、控制调用记录输入、输出、返回状态以及 RGB 关键帧、抓取候选、物体姿态等多模态迹线。失败时,系统只检查涉及的调用,快速定位根因。
- 可复用技能库:每项技能以紧凑的上下文提示形式存储,包含失败签名、适用条件、修复策略和代码草稿。仅通过调试验证和 API‑policy 检查的技能才会被写入库。
此外,ASPIRE 引入进化搜索:每轮生成 K 个候选程序,依据前一轮的最佳程序和剩余错误迹线进行条件化采样,避免在同一错误上循环修补。
实验评估
在仿真平台中,ASPIRE 的编码演员使用 Claude Code(Claude Opus 4.6)和 1M‑token 上下文窗口,代码基于开源 CaP‑X 框架(基于 MuJoCo Playground)。主要评估基准包括:
- LIBERO‑Pro(短程鲁棒性)
- Robosuite(双臂接触操作)
- BEHAVIOR‑1K(长程家居任务)
相较于基线 CaP‑Agent0,ASPIRE 在 LIBERO‑Pro 对象扰动上提升最高 77 分,目标扰动提升 41.5 分,空间扰动提升 42.5 分。在 Robosuite 双臂交接任务成功率从 20% 跃升至 92%。在 BEHAVIOR‑1K 的收音机搬运任务中,成功率从 56% 提升至 88%。
最具突破性的零样本转移实验表明:在仅使用 LIBERO‑90 学到的技能库的情况下,ASPIRE 在未见的 LIBERO‑Pro Long 任务上实现约 31% 成功率,而已有方法仅约 4%。
真实机器人迁移
研究团队将三项在仿真中发现的技能迁移至真实双臂 YAM 站点,编码演员换为 OpenAI Codex(GPT‑5.5),硬件和 API 与仿真不同。迁移后,
- 可乐罐提升:成功次数从 13/20 提升至 19/20,使用的 token 数下降约 10 倍。
- 抽屉打开:从 0/20 提升至 11/20,基线方法从未成功。
这些结果证明了 ASPIRE 所学技能具备跨平台、跨 API 的通用性。
业界意义
ASPIRE 将大语言模型的代码生成能力与细粒度多模态调试相结合,突破了传统机器人学习的「一次性」局限。通过技能库的持续积累,机器人可以在不同任务间共享经验,实现真正的持续学习。该框架的成功展示了"代码即策略" 在长时程、复杂交互场景中的可行路径,为工业自动化、服务机器人以及未来的通用人工智能提供了新的技术路径。
观点:随着计算资源和大模型能力的进一步提升,类似 ASPIRE 的自我改进系统有望成为机器人研发的标准工具,加速从实验室原型到大规模商用部署的转变。