NVIDIA发布Nemotron-Terminal,数据管道助力终端代理性能大幅提升
•3 阅读•3分钟•前沿
NVIDIAQwen3Nemotron-TerminalTerminal-Bench
•3 阅读•3分钟•前沿

背景
随着 Claude Code、Codex CLI 等前沿模型展示出在终端环境中执行代码的能力,业界普遍面临数据稀缺的瓶颈:缺少多样化的任务提示、真实的依赖文件以及完整的交互轨迹。传统收集方式成本高、效率低,导致研究者只能在少量手工标注数据上反复试验。
NVIDIA 的系统化解决方案
NVIDIA 通过 Terminal‑Task‑Gen 与 Terminal‑Corpus 构建了一个“粗‑细”两层的数据生成流水线:
-
粗层:数据集适配
- 复用已有的 SFT 数据集(数学 163K、代码 35K、软件工程 32K)
- 将静态提示包装成交互式终端任务,无需 LLM 参与,实现大规模快速扩容。
-
细层:合成任务生成
- 种子生成:以科研计算或算法题为种子,让 LLM 合成全新可执行任务,要求安装依赖、读取文件、写出结果。
- 技能组合:预定义九大领域的原始终端技能(安全、数据科学、系统运维等),指令 LLM 将 3‑5 种技能组合成复杂任务。
基础设施创新
过去的框架为每个任务单独生成 Dockerfile,导致构建时间和失败率居高不下。NVIDIA 改为 预构建九套共享镜像(如 pandas、cryptography 等),一次构建后可并行调度数千任务,显著降低算力开销。
性能表现
使用该流水线训练的 Nemotron‑Terminal 系列模型在 Terminal‑Bench 2.0 基准上取得突破性成绩:
- Nemotron‑Terminal‑8B:成功率从 2.5% 提升至 13.0%。
- Nemotron‑Terminal‑32B:准确率 27.4%,超越 480B 的 Qwen3‑Coder(23.9%),并接近闭源巨头 Grok‑4(23.1%)与 GPT‑5‑Mini(24.0%)。
这些结果表明,在终端代理场景下,高质量、多样化的轨迹数据 的增益远超单纯的参数规模。
关键洞察
- 保留失败轨迹:加入错误恢复的交互记录可将性能提升近两倍(12.4% vs 5.06%)。
- 无需课程学习:直接混合训练数据的效果优于先易后难的 curriculum 策略。
- 上下文长度:大多数高质量监督数据均在 32,768 token 以内,进一步扩长上下文反而降低表现。
业界意义
Nemotron‑Terminal 的发布为构建可靠的 终端代理 提供了可复制的标准流程,也为其他公司和开源社区提供了数据生成与治理的参考模板。随着更多组织采用类似的系统化数据管道,未来 LLM 在真实开发环境中的自主执行能力有望快速落地。
“数据质量是终端代理性能的决定性因素,模型规模只能起到放大作用。” — NVIDIA 研究团队
如需获取完整论文与代码,请访问 arXiv 链接及 HuggingFace 项目页面。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。