腾讯混元发布HPC‑Ops 高性能LLM推理算子库助力模型部署提速

背景与意义

在生成式AI高速发展的今天，LLM推理的算力成本成为制约规模化落地的关键瓶颈。腾讯混元团队针对这一痛点，推出了 HPC‑Ops——一套面向生产环境的高性能算子库，专注底层CUDA优化，兼容主流推理框架（如vLLM、SGLang），帮助企业在不改动调度、缓存管理等上层逻辑的前提下直接提升推理效率。

核心特性

Attention 系列：支持bf16与fp8两种精度，提供prefill与decode两阶段实现。
- bf16 decode 相比 FlashInfer、FlashAttention 系列最高提升 2.22 倍；
- fp8 decode 在同类基线上提升约 2.0 倍。
Grouped GEMM：基于 fp8 权重量化，decode 阶段最高提升 1.88 倍，适配长序列稀疏计算。
Fused MoE：将专家路由与计算合并为单一算子，同样采用 fp8 权重，prefill 阶段可达 1.49 倍加速。
Paged Attention：原生支持分页缓存布局，兼容 vLLM 等框架的 KV‑cache 管理，显著降低长序列内存占用。
多精度支持：库内全部算子提供 bf16 与 fp8 两种数据类型，满足当前业界向低精度迁移的趋势。

实际收益

在腾讯内部大模型服务中，使用 HPC‑Ops 后：

腾讯‑HY 系列模型的 QPM（Queries Per Minute）提升约 30%；
DeepSeek 系列模型在主流推理卡上提升约 17%。这些提升是端到端服务层面的统计，说明算子加速在真实流水线中能够带来可观的延时与吞吐改进。

与现有基线对比

算子	精度	基线	HPC‑Ops 加速比	备注
Attention (prefill)	bf16	FlashAttention‑3	1.33×	预填阶段提升有限
Attention (decode)	bf16	FlashAttention‑3	2.22×	解码延迟关键点
Attention (prefill)	fp8	FlashInfer	1.12×	fp8 仍保持优势
Attention (decode)	fp8	FlashAttention‑3	2.0×	低精度加速显著
Fused MoE (prefill)	fp8	TensorRT LLM	1.49×	端到端路由优化
Grouped GEMM (decode)	fp8	DeepGEMM	1.88×	解码阶段带宽瓶颈缓解

生态兼容与使用方式

HPC‑Ops 采用 C++ 与 CUDA 实现，底层基于 CuTe 与 CUTLASS，代码同时提供 C 接口 与 Python 包，可直接在现有推理服务中替换对应算子而无需改动上层调度逻辑。项目已在 GitHub 开源，文档中附带完整的编译指南与示例代码，亦可作为 CUDA 编程的现代教程参考。

发展路线

团队计划在后续版本中加入：

稀疏注意力（Sparse Attention）以支撑更长上下文；
支持 4‑bit 与 8‑bit 量化策略；
多 GPU 通信重叠计算的优化。

结语

HPC‑Ops 的发布标志着腾讯在 AI 基础设施领域的又一次技术突破，为大模型部署提供了可直接落地的性能增益。随着算子库的持续迭代，业界有望在保持模型质量的前提下，以更低的硬件成本实现更大规模的生成式AI服务。

链接: https://github.com/Tencent/HPC-Ops

腾讯混元发布HPC‑Ops 高性能LLM推理算子库 助力模型部署提速