Tilde Research发布Aurora优化器 彻底解决Muon神经元死亡难题
背景
Tilde Research 最近在 arXiv 发布了《Aurora: A Leverage‑Aware Optimizer That Fixes a Hidden Neuron Death Problem in Muon》论文,并同步开源代码。该工作针对近年在社区 benchmark nanoGPT speedrun 中表现出色的 Muon 优化器,揭示其在高维 MLP 层中潜在的“神经元死亡”缺陷。
Muon 优化器的隐患
Muon 通过对梯度矩阵 $G$ 进行极分解得到极矩阵 $UV^{ op}$,实现左半正交更新。虽然该方案在 wall‑clock 收敛速度上优于 AdamW,但研究发现,在“高而瘦”(tall) 的权重矩阵——如 SwiGLU‑based MLP 层——中,行范数会出现强烈各向异性。实验显示,仅在训练第 500 步,就有超过 25% 的神经元几乎不再收到有效梯度,形成永久失活的“死亡螺旋”。这种现象会削弱下游层的特征传递,降低整体模型效率。
Aurora 的核心创新
Aurora 从根本上重新定义了更新约束。它在保持左半正交的前提下,额外强制所有行范数相等(|U_{i:}|_2 = \sqrt{m/n}),实现两大约束的联合最优化。论文给出了两种实现方式:
- Riemannian Aurora:在 Stiefel 与等行范数流形上做梯度投影,严格满足约束;
- Vanilla Aurora:基于矩阵投影的近似实现,计算开销更低,易于直接替换 Muon。
对非 tall 矩阵(宽矩阵或方阵)保持原有更新不变,保证兼容性。
实验与效果
- 在 1.1B 参数模型上,Aurora 以仅 6% 的额外计算开销,实现约 100 倍 的数据效率提升;
- 在 modded‑nanoGPT speedrun 基准上刷新了 SOTA,跑分超越此前的 NorMuon;
- 通过 340M 规模实验验证,U‑NorMuon 已能消除神经元死亡,而 Aurora 在此基础上进一步提升收敛速度和最终验证 loss;
- 效果随 MLP 宽度线性放大,说明在大模型(MLP 扩展系数高)上收益更显著。
影响与展望
Aurora 作为 Muon 的即插即用替代品,已在多家前沿实验室得到采纳。其对 tall 矩阵的均衡更新为未来的梯度正交化研究提供了新的思路,也暗示了在大模型训练中,行范数均匀性可能是未被充分利用的关键资源。随着模型规模继续扩张,类似的“隐形死亡”问题或将成为性能瓶颈,Aurora 的出现为社区提供了可验证的解决方案,值得在更广泛的生成式模型、语言模型以及视觉‑语言混合模型中进一步评估。
“Aurora 让我们在不牺牲 Muon 速度优势的前提下,彻底摆脱了神经元死亡的隐患。”——Tilde Research 首席研究员