NVIDIA推出NVFP4 4位预训练方案，10万亿token规模实现FP8相近精度

2026/05/18 (周一)•23 阅读•4分钟•前沿

NVIDIANVFP4GPUTransformer EngineMamba-Transformer

2026/05/18 (周一)•23 阅读•4分钟•前沿

NVIDIA推出NVFP4 4位预训练方案，10万亿token规模实现FP8相近精度

背景

在大模型前沿训练中，FP8已成为主流精度方案，但其功耗和显存占用仍限制了更大规模的实验。NVIDIA的最新研究聚焦于将位宽进一步压缩至4位，提出NVFP4微尺度格式，旨在在保持训练稳定性的前提下，实现更高的算力吞吐和更低的内存占用。

NVFP4技术细节

块结构：每16个连续元素共享一个E4M3块尺度，外加FP32全张量尺度，实现更精细的动态范围映射。
数值表示：采用E2M1编码，仅保留 ±0、±0.5、±1、±1.5、±2、±3、±4、±6 八种取值。
加速倍率：在Blackwell GPU上，FP4 GEMM相较于BF16可达4×（GB200）和6×（GB300）的吞吐提升，显存占用约减半。
训练稳态四大支撑：
1. 选择性高精度层：在62个线性块中，仅保留首两块和末八块（约16%）使用BF16。
2. 随机Hadamard变换（RHT）：对权重梯度输入施加16×16 Hadamard矩阵+随机符号向量，抑制极端梯度。
3. 二维块尺度：权重采用16×16块尺度，确保前向与反向使用相同量化表示，避免链式规则破坏。
4. 梯度随机舍入：仅在梯度上使用随机舍入，消除系统性偏差。

训练实验与结果

模型与数据：使用Nemotron‑Nano‑12B‑v2‑Base架构（12B 参数），在10 T token、批次 736、序列长 8192 的设置下进行训练。
基线对比：FP8 基线（DeepSeek‑V3）在MMLU‑Pro 5‑shot 上为 62.62%，NVFP4 达到 62.58%；在MMLU、GSM8K、MATH、AGIEval 等多项指标上均保持在 1% 以内的差距。
编码效率：NVFP4 在前期训练阶段损失误差始终控制在 1% 以内，后期略升至 1.5%，通过在 8.2 T token 时切换前向至 BF16，可将误差降至 0.5%。
编码对比：在同等 8B 模型上，NVFP4 相比 MXFP4 在相同 token 数下的相对损失误差分别为 1.5% 与 2.5%，后者需额外 36% token 才能追平。

实际意义与展望

NVFP4 的成功验证表明，4位浮点预训练在多万亿 token 规模下已具备可复制的配方，尤其适用于算力受限的部署场景。其带来的 2‑3 倍算力提升 与 约 50% 显存节省，将为大模型训练成本的进一步压缩提供新路径。

未来的工作方向包括：

将 NVFP4 扩展至注意力矩阵和通信路径的量化；
探索不同参数规模下的尺度律；
在实际产品化环境中评估跨硬件平台的兼容性。

业内观点：NVIDIA 官方表示，NVFP4 已在 Transformer Engine 中实现，并计划在即将发布的 Blackwell GPU 系列上提供原生支持，助力研发团队在保持精度的同时实现更高效的模型训练。

结语

NVFP4 的出现标志着 4 位预训练技术从概念验证走向实用化。随着硬件与软件生态的同步升级，业界有望在算力瓶颈上取得突破，进一步推动大模型的规模化探索。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。