微软发布DIFF V2:提升解码速度与训练稳定性的新型Transformer
•3 次浏览•2分钟•前沿
MicrosoftLLMTransformerDIFF V2FlashAttention
•3 阅读•2分钟•前沿

背景与动机
- DIFF V1 在提升注意力表达力方面取得成果,但在解码阶段需要自定义 kernel,且在大学习率下训练不稳定。
- 微软团队在此基础上推出 DIFF V2,目标是 加速推理、消除自定义 kernel、提升大规模预训练的数值稳定性。
核心改进
- 查询头翻倍,保持 KV 头不变 通过增加查询头数量而不增加 KV 头,使得解码时的算子可以直接使用 FlashAttention,无需专属实现。
- 去除 per‑head RMSNorm 实验表明 RMSNorm 在大模型高学习率下会导致梯度爆炸,DIFF V2 将其移除,使梯度幅度与标准 Transformer 相当。
- λ 参数细粒度投射 将全局共享的 λ 替换为 token‑wise、head‑wise 的投射向量,消除了指数式重参数化,提升了初始化稳健性。
实验观察
- 在数万亿 token 的预训练任务中,DIFF V2 相比基线 Transformer 的语言模型损失下降约 0.02‑0.03。
- 大学习率(6e‑4~1e‑3)下的 loss 曲线更平滑,梯度峰值显著降低,激活异常值幅度也有所收敛。
- 解码吞吐率与标准 Transformer 基本持平,得益于可以直接使用 FlashAttention。
兼容性与展望
- DIFF V2 与稀疏注意力框架兼容,GQA 组内部仍可共享 KV 块,块选择策略可复用现有实现。
- 后续计划评估在长上下文基准上的表现,验证是否能够缓解 “context rot”,以及在中后期训练阶段的学习效率提升。
“我们希望通过结构上的简化,让模型在生产环境中更易部署,同时保持或超越 SOTA 表现。”—— Li Dong(Microsoft)
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。