NVIDIA推出NVFP4 4位预训练方案,10万亿token规模实现FP8相近精度
•23 阅读•4分钟•前沿
NVIDIANVFP4GPUTransformer EngineMamba-Transformer
•23 阅读•4分钟•前沿

背景
在大模型前沿训练中,FP8已成为主流精度方案,但其功耗和显存占用仍限制了更大规模的实验。NVIDIA的最新研究聚焦于将位宽进一步压缩至4位,提出NVFP4微尺度格式,旨在在保持训练稳定性的前提下,实现更高的算力吞吐和更低的内存占用。
NVFP4技术细节
- 块结构:每16个连续元素共享一个E4M3块尺度,外加FP32全张量尺度,实现更精细的动态范围映射。
- 数值表示:采用E2M1编码,仅保留 ±0、±0.5、±1、±1.5、±2、±3、±4、±6 八种取值。
- 加速倍率:在Blackwell GPU上,FP4 GEMM相较于BF16可达4×(GB200)和6×(GB300)的吞吐提升,显存占用约减半。
- 训练稳态四大支撑:
- 选择性高精度层:在62个线性块中,仅保留首两块和末八块(约16%)使用BF16。
- 随机Hadamard变换(RHT):对权重梯度输入施加16×16 Hadamard矩阵+随机符号向量,抑制极端梯度。
- 二维块尺度:权重采用16×16块尺度,确保前向与反向使用相同量化表示,避免链式规则破坏。
- 梯度随机舍入:仅在梯度上使用随机舍入,消除系统性偏差。
训练实验与结果
- 模型与数据:使用Nemotron‑Nano‑12B‑v2‑Base架构(12B 参数),在10 T token、批次 736、序列长 8192 的设置下进行训练。
- 基线对比:FP8 基线(DeepSeek‑V3)在MMLU‑Pro 5‑shot 上为 62.62%,NVFP4 达到 62.58%;在MMLU、GSM8K、MATH、AGIEval 等多项指标上均保持在 1% 以内的差距。
- 编码效率:NVFP4 在前期训练阶段损失误差始终控制在 1% 以内,后期略升至 1.5%,通过在 8.2 T token 时切换前向至 BF16,可将误差降至 0.5%。
- 编码对比:在同等 8B 模型上,NVFP4 相比 MXFP4 在相同 token 数下的相对损失误差分别为 1.5% 与 2.5%,后者需额外 36% token 才能追平。
实际意义与展望
NVFP4 的成功验证表明,4位浮点预训练在多万亿 token 规模下已具备可复制的配方,尤其适用于算力受限的部署场景。其带来的 2‑3 倍算力提升 与 约 50% 显存节省,将为大模型训练成本的进一步压缩提供新路径。
未来的工作方向包括:
- 将 NVFP4 扩展至注意力矩阵和通信路径的量化;
- 探索不同参数规模下的尺度律;
- 在实际产品化环境中评估跨硬件平台的兼容性。
业内观点:NVIDIA 官方表示,NVFP4 已在 Transformer Engine 中实现,并计划在即将发布的 Blackwell GPU 系列上提供原生支持,助力研发团队在保持精度的同时实现更高效的模型训练。
结语
NVFP4 的出现标志着 4 位预训练技术从概念验证走向实用化。随着硬件与软件生态的同步升级,业界有望在算力瓶颈上取得突破,进一步推动大模型的规模化探索。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。