MiniMax发布MSA稀疏注意力模型 大幅降低长上下文计算成本

3 阅读4分钟前沿
MiniMax发布MSA稀疏注意力模型 大幅降低长上下文计算成本

背景与动机

长序列推理的计算瓶颈一直是软max注意力的二次增长。MiniMax团队在一篇arXiv论文([2606.13392v1])中提出MSA(MiniMax Sparse Attention),旨在通过块级稀疏化保持注意力质量的同时,将计算成本固定在常数范围。

MSA技术细节

  • 双分支结构
    1. 索引分支(Index Branch) 负责为每个查询及其所属的GQA组挑选Top‑k块(默认k=16,块大小Bₖ=128),只保留2,048个键值对。
    2. 主分支(Main Branch) 在选中的块上执行完整的softmax注意力。
  • 块级选择:索引分支在每个GQA组内部共享同一套块索引,跨组独立,使得KV读取保持连续性。
  • 训练机制:采用KL对齐损失,将索引分支的分布对齐到主分支的注意力模式;配合梯度截断、索引热身等三项技巧保证稀疏训练的稳定性。

训练与评估

MSA在一个拥有1090亿参数、Mixture‑of‑Experts(MoE)结构的多模态模型上进行训练,使用约3T token的数据预算。评测结果显示:

数据集Full‑AttentionMSA‑PTMSA‑CPT
MMLU67.067.066.8
GSM8K76.277.773.7
HumanEval61.064.057.9

在长上下文基准(HELMET‑128K、RULER‑128K)上,MSA‑CPT仍能紧跟全注意力基线,仅在部分细分任务上出现轻微差距。

开源实现与性能

MiniMax同步发布了针对NVIDIA SM100 GPU的内核库 fmha_sm100,包括:

  • 无指数Top‑k:利用softmax保序特性直接在原始分数上做Top‑k,省去exp和归一化步骤,在128K上下文、k=16时比torch.topk快5.1×。
  • KV‑outer稀疏注意力:将查询打包进128×128的MMA运算,提高算力利用率;两阶段前向将注意力与合并步骤分配到不同CTA。

该内核支持BF16、FP8、NVFP4、FP4等多种低精度,MIT许可证开源,可通过 pip install -U kernels 直接调用。实测在H800上,预填充加速14.2×,解码加速7.6×。

应用前景与局限

MSA特别适合以下场景:

  • 长程推理代理:数百步的行为序列可保持固定的查询预算。
  • 代码库级检索:完整代码库的数十万token可快速定位相关块。
  • 持久记忆助手:对话历史随时间增长,仍能以固定成本读取最相关片段。
  • 长视频理解:多模态模型在视频帧序列上保持竞争力。

然而,当前实现仅针对SM100 GPU,其他硬件需自行移植;在部分细分任务上仍存在检索差距;KL对齐的额外损失增加了训练复杂度。后续需要更多第三方复现以验证其通用性。

MiniMax 表示,MSA 为“在保持模型表达力的前提下,实现长上下文高效推理的可行路径”。

结语

随着大模型上下文长度不断突破,稀疏注意力方案将成为主流技术选项。MSA 通过块级索引、两分支协同以及高效GPU内核,为业界提供了一个兼具学术新颖性和工程落地性的完整生态。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。