Sakana AI与NVIDIA推出TwELL稀疏格式 实现LLM推理加速20% 训练提速22%

35 阅读3分钟前沿
Sakana AI与NVIDIA推出TwELL稀疏格式 实现LLM推理加速20% 训练提速22%

背景

大语言模型(LLM)的前馈层占据超过三分之二的参数量和80%以上的计算 FLOPs,是成本的主要瓶颈。虽然激活稀疏在理论上已被广泛观察,但传统稀疏格式(如 ELLPACK)在 GPU 上往往因额外的转换开销而抵消收益,导致实际加速有限。

技术创新

TwELL(Tile‑wise ELLPACK) 通过与 CUDA 矩阵乘法内核的 tile 大小对齐,在投影核的 epilogue 直接构建稀疏表示,无需额外 kernel 或全局同步。其核心思路包括:

  • 将列划分为与 matmul tile 同尺寸的水平块;
  • 在每个块内部局部压缩非零值及索引;
  • 采用混合稀疏格式:稀疏行使用紧凑 ELL,溢出行回退至密集备份。

这种设计使得推理阶段只需一次融合 kernel 完成 gate 激活读取、上投影与下投影,隐藏状态从不写回显存,显著削减 DRAM 访问。

训练与推理加速方案

  1. 激活函数改为 ReLU,保证负值直接产生零。
  2. 在所有层的隐藏激活上加入 L1 正则项(系数 2×10⁻⁵),不改变学习率、权重衰减等其他超参。
  3. 稀疏度在约 1,000 步(≈10⁹ token)后快速收敛,超过 99% 的激活为零。

实验结果

模型规模推理加速训练吞吐提升能耗下降记忆占用下降
0.5B+17.0%-11.8%-1.5%-19.2%
1B+18.1%-14.6%+7.1%-25.5%
1.5B+18.8%-15.0%+11.6%-28.1%
2B+20.5%+21.9%-17.0%-22.3%

所有实验均在单节点 8 块 H100 PCIe GPU、序列长度 2048 的设置下完成。规模越大,平均非零激活数越低(0.5B 为 39,2B 为 24),稀疏 kernel 跳过的计算比例随之提升,效率提升呈线性增长。

在 RTX PRO 6000(188 SM)上,同样观察到更大幅度的加速,说明该方案对非专用硬件亦具备显著收益。

开源与生态

项目代码、稀疏格式实现以及训练脚本已在 GitHub 完全开源,兼容主流 gated‑feedforward LLM(如 Llama、Qwen)以及非 gated 变体。文档提供了“一键启用”指南:仅需将激活函数替换为 ReLU,添加 L1 正则项,即可在现有训练流水线中获得 20% 以上的加速。

社区声音:多位业界研究者在 Reddit AMA 中表示,TwELL 的 tile‑wise 思路为 GPU 稀疏计算提供了可落地的实现路径,预计将在下一代大模型训练框架中得到广泛采纳。

展望

未来工作将聚焦于将稀疏化技术迁移至已有的密集预训练模型,以及在多模态大模型中探索更细粒度的稀疏模式。若成功,模型部署成本有望进一步下降,为中小企业的本地化推理打开新局面。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。