NVIDIA发布Nemotron 3 Super实现120B参数开源模型多代理AI高吞吐

背景与意义

在大模型生态中，开源与闭源的性能鸿沟正快速收窄。NVIDIA此次发布的Nemotron 3 Super填补了中大型开源模型的空白，为需要复杂多代理协作的企业场景提供了可商用的高效推理方案。

Hybrid MoE 架构：结合内存友好的 Mamba 层与高精度 Transformer 层，仅激活部分专家即可完成生成，实现 KV 与 SSM 缓存利用率提升 4 倍。
多令牌预测 (MTP)：一次性预测多个后续 token，推理速度提升约 3 倍。
1 百万上下文窗口：相较前代扩大 7 倍，支持一次性加载完整技术文档或代码库，消除多步骤“重新推理”成本。
Latent MoE：在相同计算预算下激活四个专家，使模型在相同参数规模下达到约 35 倍模型体积的精度。
NeMo RL Gym 集成：通过交互式强化学习环境训练，模型在动态任务（如软件工程、工具调用）中表现出双倍的智能指数。

Nemotron 3 Super 引入 Reasoning Budget 概念，提供三种可切换模式：

官方推荐在所有模式下使用 Temperature=1.0、Top‑P=0.95 的超参数配置，以在创造性与逻辑性之间保持最佳平衡。

模型权重、训练数据集、全套训练代码以及 RL Gym 环境全部在 Hugging Face 开源，支持 BF16、FP8 与 NVFP4 量化格式，其中 NVFP4 为在 DGX Spark 上运行的必选格式。开发者可直接通过 NVIDIA 提供的 API 接入，享受完整的推理预算控制。

Nemotron 3 Super 的发布标志着开源大模型在 多代理 AI 领域的性能天花板已被显著提升。随着后续 500B 参数的 Nemotron 3 Ultra 计划在 2026 年底推出，业界将进一步观察开源模型在算力成本、可解释性及产业落地方面的竞争力。