NVIDIA发布ASPIRE框架：自我改进机器人程序实现31%零样本长任务成功率

背景与挑战

传统机器人编程需要人工整合感知、运动规划和接触动力学等多模态信息，成本高且难以规模化。近期的"代码即策略"（code‑as‑policy）方法让大语言模型直接生成可执行的机器人程序，提升了可解释性和可调试性。但现有系统仅在任务结束后获得粗粒度的成功/失败信号，无法定位具体失误环节，且每次任务完成后所学知识会被丢弃，导致学习效率低下。

ASPIRE 工作原理

ASPIRE（Agentic Skill Programming through Iterative Robot Exploration）采用三大核心模块：

Coordinator‑Actor 架构：中心协调器维护共享技能库，调度多个编码演员（Actor）并仅在库中传递经验证的技能片段。
细粒度闭环执行引擎：对每一次感知、规划、控制调用记录输入、输出、返回状态以及 RGB 关键帧、抓取候选、物体姿态等多模态迹线。失败时，系统只检查涉及的调用，快速定位根因。
可复用技能库：每项技能以紧凑的上下文提示形式存储，包含失败签名、适用条件、修复策略和代码草稿。仅通过调试验证和 API‑policy 检查的技能才会被写入库。

此外，ASPIRE 引入进化搜索：每轮生成 K 个候选程序，依据前一轮的最佳程序和剩余错误迹线进行条件化采样，避免在同一错误上循环修补。

实验评估

在仿真平台中，ASPIRE 的编码演员使用 Claude Code（Claude Opus 4.6）和 1M‑token 上下文窗口，代码基于开源 CaP‑X 框架（基于 MuJoCo Playground）。主要评估基准包括：

LIBERO‑Pro（短程鲁棒性）
Robosuite（双臂接触操作）
BEHAVIOR‑1K（长程家居任务）

相较于基线 CaP‑Agent0，ASPIRE 在 LIBERO‑Pro 对象扰动上提升最高 77 分，目标扰动提升 41.5 分，空间扰动提升 42.5 分。在 Robosuite 双臂交接任务成功率从 20% 跃升至 92%。在 BEHAVIOR‑1K 的收音机搬运任务中，成功率从 56% 提升至 88%。

最具突破性的零样本转移实验表明：在仅使用 LIBERO‑90 学到的技能库的情况下，ASPIRE 在未见的 LIBERO‑Pro Long 任务上实现约 31% 成功率，而已有方法仅约 4%。

真实机器人迁移

研究团队将三项在仿真中发现的技能迁移至真实双臂 YAM 站点，编码演员换为 OpenAI Codex（GPT‑5.5），硬件和 API 与仿真不同。迁移后，

可乐罐提升：成功次数从 13/20 提升至 19/20，使用的 token 数下降约 10 倍。
抽屉打开：从 0/20 提升至 11/20，基线方法从未成功。

这些结果证明了 ASPIRE 所学技能具备跨平台、跨 API 的通用性。

业界意义

ASPIRE 将大语言模型的代码生成能力与细粒度多模态调试相结合，突破了传统机器人学习的「一次性」局限。通过技能库的持续积累，机器人可以在不同任务间共享经验，实现真正的持续学习。该框架的成功展示了"代码即策略" 在长时程、复杂交互场景中的可行路径，为工业自动化、服务机器人以及未来的通用人工智能提供了新的技术路径。

观点：随着计算资源和大模型能力的进一步提升，类似 ASPIRE 的自我改进系统有望成为机器人研发的标准工具，加速从实验室原型到大规模商用部署的转变。