Tilde Research发布Aurora优化器彻底解决Muon神经元死亡难题

背景

Tilde Research 最近在 arXiv 发布了《Aurora: A Leverage‑Aware Optimizer That Fixes a Hidden Neuron Death Problem in Muon》论文，并同步开源代码。该工作针对近年在社区 benchmark nanoGPT speedrun 中表现出色的 Muon 优化器，揭示其在高维 MLP 层中潜在的“神经元死亡”缺陷。

Muon 优化器的隐患

Muon 通过对梯度矩阵 $G$ 进行极分解得到极矩阵 $UV^{ op}$，实现左半正交更新。虽然该方案在 wall‑clock 收敛速度上优于 AdamW，但研究发现，在“高而瘦”(tall) 的权重矩阵——如 SwiGLU‑based MLP 层——中，行范数会出现强烈各向异性。实验显示，仅在训练第 500 步，就有超过 25% 的神经元几乎不再收到有效梯度，形成永久失活的“死亡螺旋”。这种现象会削弱下游层的特征传递，降低整体模型效率。

Aurora 的核心创新

Aurora 从根本上重新定义了更新约束。它在保持左半正交的前提下，额外强制所有行范数相等（|U_{i:}|_2 = \sqrt{m/n}），实现两大约束的联合最优化。论文给出了两种实现方式：

Riemannian Aurora：在 Stiefel 与等行范数流形上做梯度投影，严格满足约束；
Vanilla Aurora：基于矩阵投影的近似实现，计算开销更低，易于直接替换 Muon。

对非 tall 矩阵（宽矩阵或方阵）保持原有更新不变，保证兼容性。

实验与效果

在 1.1B 参数模型上，Aurora 以仅 6% 的额外计算开销，实现约 100 倍 的数据效率提升；
在 modded‑nanoGPT speedrun 基准上刷新了 SOTA，跑分超越此前的 NorMuon；
通过 340M 规模实验验证，U‑NorMuon 已能消除神经元死亡，而 Aurora 在此基础上进一步提升收敛速度和最终验证 loss；
效果随 MLP 宽度线性放大，说明在大模型（MLP 扩展系数高）上收益更显著。

影响与展望

Aurora 作为 Muon 的即插即用替代品，已在多家前沿实验室得到采纳。其对 tall 矩阵的均衡更新为未来的梯度正交化研究提供了新的思路，也暗示了在大模型训练中，行范数均匀性可能是未被充分利用的关键资源。随着模型规模继续扩张，类似的“隐形死亡”问题或将成为性能瓶颈，Aurora 的出现为社区提供了可验证的解决方案，值得在更广泛的生成式模型、语言模型以及视觉‑语言混合模型中进一步评估。

“Aurora 让我们在不牺牲 Muon 速度优势的前提下，彻底摆脱了神经元死亡的隐患。”——Tilde Research 首席研究员

Tilde Research发布Aurora优化器 彻底解决Muon神经元死亡难题

背景

Muon 优化器的隐患

Aurora 的核心创新

实验与效果

影响与展望

标签分类

Tilde Research发布Aurora优化器彻底解决Muon神经元死亡难题