新兴模型四大族挑战Transformer，后注意力时代初现

背景回顾

过去十年，Transformer凭借自注意力的全局查询能力与GPU并行特性成为深度学习的主流架构。但自注意力的 $O(n^2)$ 计算和线性增长的 KV‑cache 在百万级序列、百亿参数模型上已成为硬件瓶颈。The Sequence最新系列对这一“注意力垄断”进行全景扫描，评估四大潜在替代族群的技术特性与产业前景。

四大家族概览

循环/线性递归模型（RNN、xLSTM）
- 采用固定大小隐藏状态，实现 $O(n)$ 计算和常数显存。
- 现代变体通过并行化的递归公式在训练阶段保持 GPU 利用率。
- 关键挑战是有限状态能否在长程检索任务中匹配注意力的无损记忆。
状态空间模型（SSM / Mamba）
- 将序列视为连续线性动力系统，训练时等价于并行卷积，推理时化为递归扫描。
- 天然线性时间复杂度，使得千兆级上下文几乎免费。
- 纯 SSM 在精确复制与查找上略显不足，当前最强方案往往在层间交叉少量自注意力。
文本扩散模型（LLaDA、Gemini Diffusion、Mercury）
- 抛弃左到右的逐词解码，使用少数去噪步并行生成完整序列。
- 具备非自回归的高速生成和双向上下文优势。
- 仍在追赶自回归模型的质量与可控性。
液体连续时间模型（Liquid Neural Networks）
- 以连续时间动力学取代离散查表，网络规模更小且具自适应特性。
- 参数效率高，提供全新归纳偏置。
- 大规模扩展尚缺乏系统验证。

发展趋势

“注意力不会消失，但它的二次代价促使我们在可线性化的区域引入更经济的算子。”——The Sequence

综合四族的优势与局限，作者认为单一注意力的垄断时代已结束。未来最可能的路径是 混合架构：在需要精确记忆的关键子任务保留自注意力，其余大部分计算采用线性‑时间模型（如 SSM 或递归），以降低显存占用并提升生成速度。此类设计已在部分前沿实验中展现出显著的算力成本削减，预计将在大语言模型的工业化部署中快速落地。

展望

下一步，The Sequence将转向知识蒸馏专题，系统梳理从大模型到小模型的压缩技术，帮助业界把最前沿能力迁移至可生产的算力环境。该系列为关注模型底层创新的研究者和产品经理提供了清晰的路线图，也为硬件厂商指明了下一代算力优化的方向。

新兴模型四大族挑战Transformer，后注意力时代初现

背景回顾

四大家族概览

发展趋势

展望

标签分类