NVIDIA发布Nemotron-Terminal，数据管道助力终端代理性能大幅提升

背景

随着 Claude Code、Codex CLI 等前沿模型展示出在终端环境中执行代码的能力，业界普遍面临数据稀缺的瓶颈：缺少多样化的任务提示、真实的依赖文件以及完整的交互轨迹。传统收集方式成本高、效率低，导致研究者只能在少量手工标注数据上反复试验。

NVIDIA 通过 Terminal‑Task‑Gen 与 Terminal‑Corpus 构建了一个“粗‑细”两层的数据生成流水线：

粗层：数据集适配
- 复用已有的 SFT 数据集（数学 163K、代码 35K、软件工程 32K）
- 将静态提示包装成交互式终端任务，无需 LLM 参与，实现大规模快速扩容。
细层：合成任务生成
- 种子生成：以科研计算或算法题为种子，让 LLM 合成全新可执行任务，要求安装依赖、读取文件、写出结果。
- 技能组合：预定义九大领域的原始终端技能（安全、数据科学、系统运维等），指令 LLM 将 3‑5 种技能组合成复杂任务。

过去的框架为每个任务单独生成 Dockerfile，导致构建时间和失败率居高不下。NVIDIA 改为 预构建九套共享镜像（如 pandas、cryptography 等），一次构建后可并行调度数千任务，显著降低算力开销。

使用该流水线训练的 Nemotron‑Terminal 系列模型在 Terminal‑Bench 2.0 基准上取得突破性成绩：

Nemotron‑Terminal‑8B：成功率从 2.5% 提升至 13.0%。
Nemotron‑Terminal‑32B：准确率 27.4%，超越 480B 的 Qwen3‑Coder（23.9%），并接近闭源巨头 Grok‑4（23.1%）与 GPT‑5‑Mini（24.0%）。

这些结果表明，在终端代理场景下，高质量、多样化的轨迹数据 的增益远超单纯的参数规模。

Nemotron‑Terminal 的发布为构建可靠的 终端代理 提供了可复制的标准流程，也为其他公司和开源社区提供了数据生成与治理的参考模板。随着更多组织采用类似的系统化数据管道，未来 LLM 在真实开发环境中的自主执行能力有望快速落地。

“数据质量是终端代理性能的决定性因素，模型规模只能起到放大作用。” — NVIDIA 研究团队

如需获取完整论文与代码，请访问 arXiv 链接及 HuggingFace 项目页面。