Claude 与 Codex 联手打造自定义 CUDA 内核技能，显著提升 H100 推理性能

背景与动机

随着大模型对算力的需求日益增长，传统的 PyTorch 原生算子已难以充分发挥 NVIDIA H100、A100 等新一代 GPU 的带宽与并行能力。Hugging Face 通过 Agent Skill 的概念，将领域专家的优化经验封装为可供 LLM（Claude、Codex）读取的指令集，使得模型能够在无需人工干预的情况下生成生产级 CUDA 内核并完成端到端编译、基准测试。

技能实现细节

Skill 包结构：.claude/skills/cuda-kernels/ 目录下包括 SKILL.md（约 550 token 的结构化指南）、若干参考脚本、优化手册以及常见坑的排查文档。
核心能力：
- 针对 H100、A100、T4 三类 GPU 提供 compute capability、shared memory 大小、向量化访问模式的参数化建议。
- 自动生成对应的 PyTorch C++ Binding，确保 torch.compile 能够直接识别自定义算子。
- 支持 Diffusers 与 Transformers 两大生态的集成路径，分别提供 RMSNorm、RoPE‑3D、GEGLU、AdaLN 等常用算子模板。
使用方式：一次性 pip install git+https://github.com/huggingface/kernels.git，随后通过 kernels skills add cuda-kernels --claude 将 Skill 注入 Claude 环境；对 Codex 使用 kernels skills add cuda-kernels --codex 即可。

基准测试结果

Diffusers（LTX‑Video）

Shape	Custom (ms)	PyTorch (ms)	Speedup
1×1024×2048	0.039	0.064	1.64×
2×1024×2048	0.040	0.073	1.82×
4×1024×2048	0.052	0.093	1.78×

端到端：49 帧、30 步的生成任务从 2.87 s 降至 2.70 s（+6%），结合 torch.compile 后最高提升 43%。
带宽利用率：约 34.7% 的 H100 理论峰值（3,350 GB/s）。

Transformers（Qwen3‑8B）

Shape	Custom (ms)	PyTorch (ms)	Speedup
1×128×4096	0.040	0.062	1.58×
1×8192×4096	0.109	0.269	2.47×

长序列优势：在 8k token 场景下 RMSNorm 延迟几乎减半，对整体推理吞吐提升显著。
平均加速：1.94×，对应 H100 带宽利用率 22.3%。

发布与共享流程

项目结构校验：Skill 自动生成符合 kernel-builder 规范的目录结构（kernel_src/, torch-ext/, build.toml 等）。
多变体构建：使用 Nix Flake 一键为所有 PyTorch/CUDA 组合编译二进制，支持缓存加速。
上传至 Hugging Face Kernel Hub：huggingface-cli repo create <org>/<kernel> --type model → huggingface-cli upload <org>/<kernel> ./build。
一行加载：from kernels import get_kernel; rmsnorm = get_kernel("<org>/<kernel>")，系统自动匹配用户的 Python、PyTorch 与 CUDA 版本，无需手动编译。

业界意义

降低门槛：即便是没有 CUDA 开发经验的工程师，也可以通过 LLM‑Skill 快速得到可直接部署的高性能算子。
生态闭环：Skill 负责研发，Kernel Hub 负责分发，两者形成“开发‑发布‑使用”一体化流水线，推动算子级别的开源协作。
可扩展性：目前已覆盖 RMSNorm、Attention 等核心算子，未来可加入稀疏矩阵、混合精度等更高级别优化。

“让 AI 自己写出最优的 GPU 代码，是生成式 AI 向系统级智能迈进的关键一步。”

通过此项目，Claude 与 Codex 展示了在真实硬件约束下实现 agentic coding 的可行路径，为下一代大模型提供了更高效的底层支撑。