Claude 与 Codex 联手打造自定义 CUDA 内核技能,显著提升 H100 推理性能

37 阅读5分钟开源
Claude 与 Codex 联手打造自定义 CUDA 内核技能,显著提升 H100 推理性能

背景与动机

随着大模型对算力的需求日益增长,传统的 PyTorch 原生算子已难以充分发挥 NVIDIA H100、A100 等新一代 GPU 的带宽与并行能力。Hugging Face 通过 Agent Skill 的概念,将领域专家的优化经验封装为可供 LLM(Claude、Codex)读取的指令集,使得模型能够在无需人工干预的情况下生成生产级 CUDA 内核并完成端到端编译、基准测试。

技能实现细节

  • Skill 包结构.claude/skills/cuda-kernels/ 目录下包括 SKILL.md(约 550 token 的结构化指南)、若干参考脚本、优化手册以及常见坑的排查文档。
  • 核心能力
    • 针对 H100、A100、T4 三类 GPU 提供 compute capability、shared memory 大小、向量化访问模式的参数化建议。
    • 自动生成对应的 PyTorch C++ Binding,确保 torch.compile 能够直接识别自定义算子。
    • 支持 Diffusers 与 Transformers 两大生态的集成路径,分别提供 RMSNorm、RoPE‑3D、GEGLU、AdaLN 等常用算子模板。
  • 使用方式:一次性 pip install git+https://github.com/huggingface/kernels.git,随后通过 kernels skills add cuda-kernels --claude 将 Skill 注入 Claude 环境;对 Codex 使用 kernels skills add cuda-kernels --codex 即可。

基准测试结果

Diffusers(LTX‑Video)

ShapeCustom (ms)PyTorch (ms)Speedup
1×1024×20480.0390.0641.64×
2×1024×20480.0400.0731.82×
4×1024×20480.0520.0931.78×
  • 端到端:49 帧、30 步的生成任务从 2.87 s 降至 2.70 s(+6%),结合 torch.compile 后最高提升 43%。
  • 带宽利用率:约 34.7% 的 H100 理论峰值(3,350 GB/s)。

Transformers(Qwen3‑8B)

ShapeCustom (ms)PyTorch (ms)Speedup
1×128×40960.0400.0621.58×
1×8192×40960.1090.2692.47×
  • 长序列优势:在 8k token 场景下 RMSNorm 延迟几乎减半,对整体推理吞吐提升显著。
  • 平均加速:1.94×,对应 H100 带宽利用率 22.3%。

发布与共享流程

  1. 项目结构校验:Skill 自动生成符合 kernel-builder 规范的目录结构(kernel_src/, torch-ext/, build.toml 等)。
  2. 多变体构建:使用 Nix Flake 一键为所有 PyTorch/CUDA 组合编译二进制,支持缓存加速。
  3. 上传至 Hugging Face Kernel Hubhuggingface-cli repo create <org>/<kernel> --type modelhuggingface-cli upload <org>/<kernel> ./build
  4. 一行加载from kernels import get_kernel; rmsnorm = get_kernel("<org>/<kernel>"),系统自动匹配用户的 Python、PyTorch 与 CUDA 版本,无需手动编译。

业界意义

  • 降低门槛:即便是没有 CUDA 开发经验的工程师,也可以通过 LLM‑Skill 快速得到可直接部署的高性能算子。
  • 生态闭环:Skill 负责研发,Kernel Hub 负责分发,两者形成“开发‑发布‑使用”一体化流水线,推动算子级别的开源协作。
  • 可扩展性:目前已覆盖 RMSNorm、Attention 等核心算子,未来可加入稀疏矩阵、混合精度等更高级别优化。

“让 AI 自己写出最优的 GPU 代码,是生成式 AI 向系统级智能迈进的关键一步。”

通过此项目,Claude 与 Codex 展示了在真实硬件约束下实现 agentic coding 的可行路径,为下一代大模型提供了更高效的底层支撑。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。