腾讯混元发布HPC‑Ops 高性能LLM推理算子库 助力模型部署提速

31 阅读4分钟开源

背景与意义

在生成式AI高速发展的今天,LLM推理的算力成本成为制约规模化落地的关键瓶颈。腾讯混元团队针对这一痛点,推出了 HPC‑Ops——一套面向生产环境的高性能算子库,专注底层CUDA优化,兼容主流推理框架(如vLLM、SGLang),帮助企业在不改动调度、缓存管理等上层逻辑的前提下直接提升推理效率。

核心特性

  • Attention 系列:支持bf16与fp8两种精度,提供prefill与decode两阶段实现。
    • bf16 decode 相比 FlashInfer、FlashAttention 系列最高提升 2.22 倍;
    • fp8 decode 在同类基线上提升约 2.0 倍。
  • Grouped GEMM:基于 fp8 权重量化,decode 阶段最高提升 1.88 倍,适配长序列稀疏计算。
  • Fused MoE:将专家路由与计算合并为单一算子,同样采用 fp8 权重,prefill 阶段可达 1.49 倍加速。
  • Paged Attention:原生支持分页缓存布局,兼容 vLLM 等框架的 KV‑cache 管理,显著降低长序列内存占用。
  • 多精度支持:库内全部算子提供 bf16 与 fp8 两种数据类型,满足当前业界向低精度迁移的趋势。

实际收益

在腾讯内部大模型服务中,使用 HPC‑Ops 后:

  • 腾讯‑HY 系列模型的 QPM(Queries Per Minute)提升约 30%
  • DeepSeek 系列模型在主流推理卡上提升约 17%。 这些提升是端到端服务层面的统计,说明算子加速在真实流水线中能够带来可观的延时与吞吐改进。

与现有基线对比

算子精度基线HPC‑Ops 加速比备注
Attention (prefill)bf16FlashAttention‑31.33×预填阶段提升有限
Attention (decode)bf16FlashAttention‑32.22×解码延迟关键点
Attention (prefill)fp8FlashInfer1.12×fp8 仍保持优势
Attention (decode)fp8FlashAttention‑32.0×低精度加速显著
Fused MoE (prefill)fp8TensorRT LLM1.49×端到端路由优化
Grouped GEMM (decode)fp8DeepGEMM1.88×解码阶段带宽瓶颈缓解

生态兼容与使用方式

HPC‑Ops 采用 C++ 与 CUDA 实现,底层基于 CuTe 与 CUTLASS,代码同时提供 C 接口Python 包,可直接在现有推理服务中替换对应算子而无需改动上层调度逻辑。项目已在 GitHub 开源,文档中附带完整的编译指南与示例代码,亦可作为 CUDA 编程的现代教程参考。

发展路线

团队计划在后续版本中加入:

  • 稀疏注意力(Sparse Attention)以支撑更长上下文;
  • 支持 4‑bit 与 8‑bit 量化策略;
  • 多 GPU 通信重叠计算的优化。

结语

HPC‑Ops 的发布标志着腾讯在 AI 基础设施领域的又一次技术突破,为大模型部署提供了可直接落地的性能增益。随着算子库的持续迭代,业界有望在保持模型质量的前提下,以更低的硬件成本实现更大规模的生成式AI服务。

链接: https://github.com/Tencent/HPC-Ops

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。