腾讯混元发布HPC‑Ops 高性能LLM推理算子库 助力模型部署提速
•31 阅读•4分钟•开源
LLM腾讯混元HPC-Ops
•31 阅读•4分钟•开源
背景与意义
在生成式AI高速发展的今天,LLM推理的算力成本成为制约规模化落地的关键瓶颈。腾讯混元团队针对这一痛点,推出了 HPC‑Ops——一套面向生产环境的高性能算子库,专注底层CUDA优化,兼容主流推理框架(如vLLM、SGLang),帮助企业在不改动调度、缓存管理等上层逻辑的前提下直接提升推理效率。
核心特性
- Attention 系列:支持bf16与fp8两种精度,提供prefill与decode两阶段实现。
- bf16 decode 相比 FlashInfer、FlashAttention 系列最高提升 2.22 倍;
- fp8 decode 在同类基线上提升约 2.0 倍。
- Grouped GEMM:基于 fp8 权重量化,decode 阶段最高提升 1.88 倍,适配长序列稀疏计算。
- Fused MoE:将专家路由与计算合并为单一算子,同样采用 fp8 权重,prefill 阶段可达 1.49 倍加速。
- Paged Attention:原生支持分页缓存布局,兼容 vLLM 等框架的 KV‑cache 管理,显著降低长序列内存占用。
- 多精度支持:库内全部算子提供 bf16 与 fp8 两种数据类型,满足当前业界向低精度迁移的趋势。
实际收益
在腾讯内部大模型服务中,使用 HPC‑Ops 后:
- 腾讯‑HY 系列模型的 QPM(Queries Per Minute)提升约 30%;
- DeepSeek 系列模型在主流推理卡上提升约 17%。 这些提升是端到端服务层面的统计,说明算子加速在真实流水线中能够带来可观的延时与吞吐改进。
与现有基线对比
| 算子 | 精度 | 基线 | HPC‑Ops 加速比 | 备注 |
|---|---|---|---|---|
| Attention (prefill) | bf16 | FlashAttention‑3 | 1.33× | 预填阶段提升有限 |
| Attention (decode) | bf16 | FlashAttention‑3 | 2.22× | 解码延迟关键点 |
| Attention (prefill) | fp8 | FlashInfer | 1.12× | fp8 仍保持优势 |
| Attention (decode) | fp8 | FlashAttention‑3 | 2.0× | 低精度加速显著 |
| Fused MoE (prefill) | fp8 | TensorRT LLM | 1.49× | 端到端路由优化 |
| Grouped GEMM (decode) | fp8 | DeepGEMM | 1.88× | 解码阶段带宽瓶颈缓解 |
生态兼容与使用方式
HPC‑Ops 采用 C++ 与 CUDA 实现,底层基于 CuTe 与 CUTLASS,代码同时提供 C 接口 与 Python 包,可直接在现有推理服务中替换对应算子而无需改动上层调度逻辑。项目已在 GitHub 开源,文档中附带完整的编译指南与示例代码,亦可作为 CUDA 编程的现代教程参考。
发展路线
团队计划在后续版本中加入:
- 稀疏注意力(Sparse Attention)以支撑更长上下文;
- 支持 4‑bit 与 8‑bit 量化策略;
- 多 GPU 通信重叠计算的优化。
结语
HPC‑Ops 的发布标志着腾讯在 AI 基础设施领域的又一次技术突破,为大模型部署提供了可直接落地的性能增益。随着算子库的持续迭代,业界有望在保持模型质量的前提下,以更低的硬件成本实现更大规模的生成式AI服务。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。