NVIDIA发布Nemotron-Terminal,数据管道助力终端代理性能大幅提升

3 阅读3分钟前沿
NVIDIA发布Nemotron-Terminal,数据管道助力终端代理性能大幅提升

背景

随着 Claude Code、Codex CLI 等前沿模型展示出在终端环境中执行代码的能力,业界普遍面临数据稀缺的瓶颈:缺少多样化的任务提示、真实的依赖文件以及完整的交互轨迹。传统收集方式成本高、效率低,导致研究者只能在少量手工标注数据上反复试验。

NVIDIA 的系统化解决方案

NVIDIA 通过 Terminal‑Task‑GenTerminal‑Corpus 构建了一个“粗‑细”两层的数据生成流水线:

  • 粗层:数据集适配

    • 复用已有的 SFT 数据集(数学 163K、代码 35K、软件工程 32K)
    • 将静态提示包装成交互式终端任务,无需 LLM 参与,实现大规模快速扩容。
  • 细层:合成任务生成

    • 种子生成:以科研计算或算法题为种子,让 LLM 合成全新可执行任务,要求安装依赖、读取文件、写出结果。
    • 技能组合:预定义九大领域的原始终端技能(安全、数据科学、系统运维等),指令 LLM 将 3‑5 种技能组合成复杂任务。

基础设施创新

过去的框架为每个任务单独生成 Dockerfile,导致构建时间和失败率居高不下。NVIDIA 改为 预构建九套共享镜像(如 pandas、cryptography 等),一次构建后可并行调度数千任务,显著降低算力开销。

性能表现

使用该流水线训练的 Nemotron‑Terminal 系列模型在 Terminal‑Bench 2.0 基准上取得突破性成绩:

  • Nemotron‑Terminal‑8B:成功率从 2.5% 提升至 13.0%。
  • Nemotron‑Terminal‑32B:准确率 27.4%,超越 480B 的 Qwen3‑Coder(23.9%),并接近闭源巨头 Grok‑4(23.1%)与 GPT‑5‑Mini(24.0%)。

这些结果表明,在终端代理场景下,高质量、多样化的轨迹数据 的增益远超单纯的参数规模。

关键洞察

  1. 保留失败轨迹:加入错误恢复的交互记录可将性能提升近两倍(12.4% vs 5.06%)。
  2. 无需课程学习:直接混合训练数据的效果优于先易后难的 curriculum 策略。
  3. 上下文长度:大多数高质量监督数据均在 32,768 token 以内,进一步扩长上下文反而降低表现。

业界意义

Nemotron‑Terminal 的发布为构建可靠的 终端代理 提供了可复制的标准流程,也为其他公司和开源社区提供了数据生成与治理的参考模板。随着更多组织采用类似的系统化数据管道,未来 LLM 在真实开发环境中的自主执行能力有望快速落地。

“数据质量是终端代理性能的决定性因素,模型规模只能起到放大作用。” — NVIDIA 研究团队


如需获取完整论文与代码,请访问 arXiv 链接及 HuggingFace 项目页面。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。