微软发布DIFF V2：提升解码速度与训练稳定性的新型Transformer

2026/01/20 (周二)•37 阅读•2分钟•前沿

MicrosoftLLMTransformerDIFF V2FlashAttention

2026/01/20 (周二)•37 阅读•2分钟•前沿

微软发布DIFF V2：提升解码速度与训练稳定性的新型Transformer

背景与动机

DIFF V1 在提升注意力表达力方面取得成果，但在解码阶段需要自定义 kernel，且在大学习率下训练不稳定。
微软团队在此基础上推出 DIFF V2，目标是 加速推理、消除自定义 kernel、提升大规模预训练的数值稳定性。

核心改进

查询头翻倍，保持 KV 头不变 通过增加查询头数量而不增加 KV 头，使得解码时的算子可以直接使用 FlashAttention，无需专属实现。
去除 per‑head RMSNorm 实验表明 RMSNorm 在大模型高学习率下会导致梯度爆炸，DIFF V2 将其移除，使梯度幅度与标准 Transformer 相当。
λ 参数细粒度投射 将全局共享的 λ 替换为 token‑wise、head‑wise 的投射向量，消除了指数式重参数化，提升了初始化稳健性。

实验观察

在数万亿 token 的预训练任务中，DIFF V2 相比基线 Transformer 的语言模型损失下降约 0.02‑0.03。
大学习率（6e‑4~1e‑3）下的 loss 曲线更平滑，梯度峰值显著降低，激活异常值幅度也有所收敛。
解码吞吐率与标准 Transformer 基本持平，得益于可以直接使用 FlashAttention。

兼容性与展望

DIFF V2 与稀疏注意力框架兼容，GQA 组内部仍可共享 KV 块，块选择策略可复用现有实现。
后续计划评估在长上下文基准上的表现，验证是否能够缓解 “context rot”，以及在中后期训练阶段的学习效率提升。

“我们希望通过结构上的简化，让模型在生产环境中更易部署，同时保持或超越 SOTA 表现。”—— Li Dong（Microsoft）

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。