Google推出STATIC框架实现LLM约束解码948倍加速

8 阅读3分钟前沿
Google推出STATIC框架实现LLM约束解码948倍加速

背景

随着生成式检索(Generative Retrieval)在工业推荐系统中的崛起,LLM 不再仅仅用于文本生成,而是直接承担 语义 ID(SID) 的自回归检索任务。业务约束(如内容新鲜度、库存可用性)必须在解码阶段被强制执行,否则模型容易产生无效或已下架的商品 ID,导致严重的业务风险。

技术原理

STATIC(Sparse Transition Matrix‑Accelerated Trie Index) 将传统前缀树(Trie)平展为 CSR(Compressed Sparse Row) 稀疏矩阵,实现了两大创新:

  • 密集掩码层(Dense Masking):在前两层(最高分支因子)使用位打包的布尔张量,实现 O(1) 查找,确保高并发解码的首段不受延迟瓶颈。
  • 向量化节点转移核(VNTK):对后续层采用固定大小切片的分支‑自由 kernel,整个解码过程保持单一静态计算图,兼容 XLA 等加速器编译器,避免指针追踪导致的随机内存访问。

“将树形遍历映射为稀疏矩阵乘法,是对硬件友好约束解码的根本性重构。” — 论文摘要

性能表现

  • 单步延迟:0.033 ms,约为 CPU Trie 的 0.033 ms / 0.033 ms = 948 倍 加速;
  • 相对基线:对比二进制搜索基线(PPV),实现 1033 倍 加速;
  • 内存占用:20 M 词汇约 1.5 GB HBM,上限 90 MB/百万约束,实际利用率 ≤ 75%。
  • 规模效应:语义 ID 规模扩大时,延迟基本保持不变,呈现 O(1) I/O 复杂度。

生产部署

STATIC 已在 YouTube 推荐系统上线,针对“最近 7 天”新鲜度约束进行强制执行:

  • 业务提升:7‑天新鲜视频观看量提升 +5.1%,3‑天新鲜视频提升 +2.9%
  • 点击率:CTR 提升 +0.15%,实现全链路 100% 约束合规。
  • 冷启动:在 Amazon Reviews 冷启动实验中,Recall@1 从 0% 提升至可观水平,验证了约束集合对未见商品的召回能力。

影响与展望

STATIC 的出现为 LLM‑驱动的约束生成 提供了可扩展、硬件友好的实现路径,尤其在大规模推荐、搜索以及对业务规则高度敏感的场景中具有直接落地价值。未来工作可能包括:

  • 将 CSR‑化思路推广至更复杂的 多约束 场景(如多维库存、地域限制);
  • GPU/TPU 新一代加速器协同优化稀疏矩阵算子,进一步压缩能耗;
  • 开源实现以促进学术社区复现与创新。

结语:STATIC 证明了在硬件层面重新构造约束解码结构可以带来数量级的性能突破,为生成式检索的工业化落地提供了关键技术支撑。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。