微软发布DIFF V2:提升解码速度与训练稳定性的新型Transformer

3 次浏览2分钟前沿
微软发布DIFF V2:提升解码速度与训练稳定性的新型Transformer

背景与动机

  • DIFF V1 在提升注意力表达力方面取得成果,但在解码阶段需要自定义 kernel,且在大学习率下训练不稳定。
  • 微软团队在此基础上推出 DIFF V2,目标是 加速推理消除自定义 kernel提升大规模预训练的数值稳定性

核心改进

  1. 查询头翻倍,保持 KV 头不变 通过增加查询头数量而不增加 KV 头,使得解码时的算子可以直接使用 FlashAttention,无需专属实现。
  2. 去除 per‑head RMSNorm 实验表明 RMSNorm 在大模型高学习率下会导致梯度爆炸,DIFF V2 将其移除,使梯度幅度与标准 Transformer 相当。
  3. λ 参数细粒度投射 将全局共享的 λ 替换为 token‑wise、head‑wise 的投射向量,消除了指数式重参数化,提升了初始化稳健性。

实验观察

  • 在数万亿 token 的预训练任务中,DIFF V2 相比基线 Transformer 的语言模型损失下降约 0.02‑0.03。
  • 大学习率(6e‑4~1e‑3)下的 loss 曲线更平滑,梯度峰值显著降低,激活异常值幅度也有所收敛。
  • 解码吞吐率与标准 Transformer 基本持平,得益于可以直接使用 FlashAttention。

兼容性与展望

  • DIFF V2 与稀疏注意力框架兼容,GQA 组内部仍可共享 KV 块,块选择策略可复用现有实现。
  • 后续计划评估在长上下文基准上的表现,验证是否能够缓解 “context rot”,以及在中后期训练阶段的学习效率提升。

“我们希望通过结构上的简化,让模型在生产环境中更易部署,同时保持或超越 SOTA 表现。”—— Li Dong(Microsoft)

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。