NVIDIA发布Nemotron‑3‑Nano 30B NVFP4版,实现高效推理

14 阅读3分钟前沿
NVIDIA发布Nemotron‑3‑Nano 30B NVFP4版,实现高效推理

概览

NVIDIA 今日在 HuggingFace 上公开了 Nemotron‑Nano‑3‑30B‑A3B‑NVFP4 检查点。该模型基于 30 B 参数的 Nemotron‑3‑Nano,采用 4 bit NVFP4 浮点格式并配合 量化感知蒸馏(QAD) 实现推理加速。相较于原始 BF16 基线,模型在保持 99.4% 精度的同时,可在 Blackwell B200 上实现约 4 倍吞吐提升。

模型架构与训练

  • 混合 Mamba2‑Transformer MoE:52 层深度,其中 23 层为 Mamba2 与 MoE 组合,6 层为分组查询注意力(2 个组)。每个 MoE 层拥有 128 个路由专家与 1 个共享专家,单 token 激活 6 个专家,等效约 3.5 B 活跃参数。
  • 预训练:在 25 T token 规模语料上使用 Warmup‑Stable‑Decay 学习率策略(峰值 1e‑3,最小 1e‑5),批次大小 3072。
  • 后训练:三阶段管线——监督微调(代码、数学、科学、工具调用等)、多步骤强化学习(GRPO)以及基于生成奖励模型的 RLHF。完成后对模型进行 NVFP4 量化。

NVFP4 量化格式

NVFP4 为 NVIDIA 自研的 4 bit 浮点格式,专为最新 GPU 的训练与推理设计。主要优势:

  • 与 FP8 相比,算力提升 2‑3 倍;
  • 权重与激活存储压缩约 1.8 倍;
  • 块大小从 32 降至 16,采用双层缩放:每块使用 E4M3‑FP8 缩放,每张量使用 FP32 缩放,兼顾局部统计适配与全局动态范围。

对大模型而言,直接后训练量化(PTQ)已能保持基本准确度;对中小模型则会出现明显精度下降,这促使 NVIDIA 研发基于训练的恢复方法——QAD。

量化感知蒸馏(QAD)

传统的量化感知训练(QAT)在多阶段后训练流水线(SFT、RL、模型合并)中难以复现,且往往缺乏原始训练数据。QAD 将目标从原始任务损失转为 KL 散度,让 NVFP4 学生模型直接模仿冻结的 BF16 教师模型输出分布。其关键特性:

  1. 在教师模型已完成全部微调后仍保持稳定;
  2. 只需输入文本即可进行蒸馏,无需标签或奖励模型;
  3. 相比 QAT,能够更精准地对齐高精度教师。

实验表明,在 AA‑LCR、AIME25、GPQA‑D、LiveCodeBench‑v5 与 SciCode‑TQ 等推理与编码基准上,NVFP4‑QAD 的准确率达到 BF16 的 99.4%,而 PTQ 与 QAT 均出现显著下降。

影响与展望

Nemotron‑3‑Nano‑30B‑NVFP4 的发布展示了 NVIDIA 在高效大模型推理上的前沿突破。4 bit NVFP4 结合 QAD,不仅降低显存需求,还实现了接近原始精度的推理性能,为云端大模型服务、边缘 AI 推理以及多模态工具链提供了可行路径。随着 Blackwell 系列 GPU 的算力提升,预计此类低比特量化技术将在企业级部署中快速普及。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。