Claude 与 Codex 联手打造自定义 CUDA 内核技能,显著提升 H100 推理性能
•37 阅读•5分钟•开源
OpenAIClaudeCUDAH100
•37 阅读•5分钟•开源

背景与动机
随着大模型对算力的需求日益增长,传统的 PyTorch 原生算子已难以充分发挥 NVIDIA H100、A100 等新一代 GPU 的带宽与并行能力。Hugging Face 通过 Agent Skill 的概念,将领域专家的优化经验封装为可供 LLM(Claude、Codex)读取的指令集,使得模型能够在无需人工干预的情况下生成生产级 CUDA 内核并完成端到端编译、基准测试。
技能实现细节
- Skill 包结构:
.claude/skills/cuda-kernels/目录下包括SKILL.md(约 550 token 的结构化指南)、若干参考脚本、优化手册以及常见坑的排查文档。 - 核心能力:
- 针对 H100、A100、T4 三类 GPU 提供 compute capability、shared memory 大小、向量化访问模式的参数化建议。
- 自动生成对应的 PyTorch C++ Binding,确保
torch.compile能够直接识别自定义算子。 - 支持 Diffusers 与 Transformers 两大生态的集成路径,分别提供 RMSNorm、RoPE‑3D、GEGLU、AdaLN 等常用算子模板。
- 使用方式:一次性
pip install git+https://github.com/huggingface/kernels.git,随后通过kernels skills add cuda-kernels --claude将 Skill 注入 Claude 环境;对 Codex 使用kernels skills add cuda-kernels --codex即可。
基准测试结果
Diffusers(LTX‑Video)
| Shape | Custom (ms) | PyTorch (ms) | Speedup |
|---|---|---|---|
| 1×1024×2048 | 0.039 | 0.064 | 1.64× |
| 2×1024×2048 | 0.040 | 0.073 | 1.82× |
| 4×1024×2048 | 0.052 | 0.093 | 1.78× |
- 端到端:49 帧、30 步的生成任务从 2.87 s 降至 2.70 s(+6%),结合
torch.compile后最高提升 43%。 - 带宽利用率:约 34.7% 的 H100 理论峰值(3,350 GB/s)。
Transformers(Qwen3‑8B)
| Shape | Custom (ms) | PyTorch (ms) | Speedup |
|---|---|---|---|
| 1×128×4096 | 0.040 | 0.062 | 1.58× |
| 1×8192×4096 | 0.109 | 0.269 | 2.47× |
- 长序列优势:在 8k token 场景下 RMSNorm 延迟几乎减半,对整体推理吞吐提升显著。
- 平均加速:1.94×,对应 H100 带宽利用率 22.3%。
发布与共享流程
- 项目结构校验:Skill 自动生成符合
kernel-builder规范的目录结构(kernel_src/,torch-ext/,build.toml等)。 - 多变体构建:使用 Nix Flake 一键为所有 PyTorch/CUDA 组合编译二进制,支持缓存加速。
- 上传至 Hugging Face Kernel Hub:
huggingface-cli repo create <org>/<kernel> --type model→huggingface-cli upload <org>/<kernel> ./build。 - 一行加载:
from kernels import get_kernel; rmsnorm = get_kernel("<org>/<kernel>"),系统自动匹配用户的 Python、PyTorch 与 CUDA 版本,无需手动编译。
业界意义
- 降低门槛:即便是没有 CUDA 开发经验的工程师,也可以通过 LLM‑Skill 快速得到可直接部署的高性能算子。
- 生态闭环:Skill 负责研发,Kernel Hub 负责分发,两者形成“开发‑发布‑使用”一体化流水线,推动算子级别的开源协作。
- 可扩展性:目前已覆盖 RMSNorm、Attention 等核心算子,未来可加入稀疏矩阵、混合精度等更高级别优化。
“让 AI 自己写出最优的 GPU 代码,是生成式 AI 向系统级智能迈进的关键一步。”
通过此项目,Claude 与 Codex 展示了在真实硬件约束下实现 agentic coding 的可行路径,为下一代大模型提供了更高效的底层支撑。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。