Sakana AI与NVIDIA推出TwELL稀疏格式实现LLM推理加速20% 训练提速22%

背景

大语言模型（LLM）的前馈层占据超过三分之二的参数量和80%以上的计算 FLOPs，是成本的主要瓶颈。虽然激活稀疏在理论上已被广泛观察，但传统稀疏格式（如 ELLPACK）在 GPU 上往往因额外的转换开销而抵消收益，导致实际加速有限。

TwELL（Tile‑wise ELLPACK） 通过与 CUDA 矩阵乘法内核的 tile 大小对齐，在投影核的 epilogue 直接构建稀疏表示，无需额外 kernel 或全局同步。其核心思路包括：

这种设计使得推理阶段只需一次融合 kernel 完成 gate 激活读取、上投影与下投影，隐藏状态从不写回显存，显著削减 DRAM 访问。

模型规模	推理加速	训练吞吐提升	能耗下降	记忆占用下降
0.5B	+17.0%	-11.8%	-1.5%	-19.2%
1B	+18.1%	-14.6%	+7.1%	-25.5%
1.5B	+18.8%	-15.0%	+11.6%	-28.1%
2B	+20.5%	+21.9%	-17.0%	-22.3%

所有实验均在单节点 8 块 H100 PCIe GPU、序列长度 2048 的设置下完成。规模越大，平均非零激活数越低（0.5B 为 39，2B 为 24），稀疏 kernel 跳过的计算比例随之提升，效率提升呈线性增长。

在 RTX PRO 6000（188 SM）上，同样观察到更大幅度的加速，说明该方案对非专用硬件亦具备显著收益。

项目代码、稀疏格式实现以及训练脚本已在 GitHub 完全开源，兼容主流 gated‑feedforward LLM（如 Llama、Qwen）以及非 gated 变体。文档提供了“一键启用”指南：仅需将激活函数替换为 ReLU，添加 L1 正则项，即可在现有训练流水线中获得 20% 以上的加速。

社区声音：多位业界研究者在 Reddit AMA 中表示，TwELL 的 tile‑wise 思路为 GPU 稀疏计算提供了可落地的实现路径，预计将在下一代大模型训练框架中得到广泛采纳。

未来工作将聚焦于将稀疏化技术迁移至已有的密集预训练模型，以及在多模态大模型中探索更细粒度的稀疏模式。若成功，模型部署成本有望进一步下降，为中小企业的本地化推理打开新局面。