MiniMax发布MSA稀疏注意力模型大幅降低长上下文计算成本

背景与动机

长序列推理的计算瓶颈一直是软max注意力的二次增长。MiniMax团队在一篇arXiv论文（[2606.13392v1]）中提出MSA（MiniMax Sparse Attention），旨在通过块级稀疏化保持注意力质量的同时，将计算成本固定在常数范围。

双分支结构：
1. 索引分支（Index Branch） 负责为每个查询及其所属的GQA组挑选Top‑k块（默认k=16，块大小Bₖ=128），只保留2,048个键值对。
2. 主分支（Main Branch） 在选中的块上执行完整的softmax注意力。
块级选择：索引分支在每个GQA组内部共享同一套块索引，跨组独立，使得KV读取保持连续性。
训练机制：采用KL对齐损失，将索引分支的分布对齐到主分支的注意力模式；配合梯度截断、索引热身等三项技巧保证稀疏训练的稳定性。

MSA在一个拥有1090亿参数、Mixture‑of‑Experts（MoE）结构的多模态模型上进行训练，使用约3T token的数据预算。评测结果显示：

数据集	Full‑Attention	MSA‑PT	MSA‑CPT
MMLU	67.0	67.0	66.8
GSM8K	76.2	77.7	73.7
HumanEval	61.0	64.0	57.9

在长上下文基准（HELMET‑128K、RULER‑128K）上，MSA‑CPT仍能紧跟全注意力基线，仅在部分细分任务上出现轻微差距。

MiniMax同步发布了针对NVIDIA SM100 GPU的内核库 fmha_sm100，包括：

无指数Top‑k：利用softmax保序特性直接在原始分数上做Top‑k，省去exp和归一化步骤，在128K上下文、k=16时比torch.topk快5.1×。
KV‑outer稀疏注意力：将查询打包进128×128的MMA运算，提高算力利用率；两阶段前向将注意力与合并步骤分配到不同CTA。

该内核支持BF16、FP8、NVFP4、FP4等多种低精度，MIT许可证开源，可通过 pip install -U kernels 直接调用。实测在H800上，预填充加速14.2×，解码加速7.6×。

MSA特别适合以下场景：

然而，当前实现仅针对SM100 GPU，其他硬件需自行移植；在部分细分任务上仍存在检索差距；KL对齐的额外损失增加了训练复杂度。后续需要更多第三方复现以验证其通用性。

MiniMax 表示，MSA 为“在保持模型表达力的前提下，实现长上下文高效推理的可行路径”。

随着大模型上下文长度不断突破，稀疏注意力方案将成为主流技术选项。MSA 通过块级索引、两分支协同以及高效GPU内核，为业界提供了一个兼具学术新颖性和工程落地性的完整生态。