Claude助力生成CUDA内核技能，Upskill让开源模型也能写GPU代码

背景

在生成式AI快速渗透软件开发的今天，如何让算力受限的模型也能完成高难度的专业任务成为关键挑战。Claude Opus 4.5 作为教师模型，能够在交互式对话中完成完整的 CUDA kernel 编写；而开源社区则提供了 Upskill 工具，用于将教师模型的操作轨迹抽象为可复用的 Skill 文件，并在多模型之间进行评估。

工作流程

教师模型生成内核
- 使用 Claude Code 与模型交互，迭代生成 kernel 代码并记录完整的会话轨迹（包括指令、验证步骤、文档链接）。
- 轨迹示例展示了模型在 H100 架构下如何设置 build.toml、选择共享内存以及使用 __CUDA_ARCH__ 条件编译。
从轨迹创建 Skill
- 在同一会话中指令 Claude 将轨迹转化为 SKILL.md，或使用 Anthropic 提供的 skill creator 插件。
- Upskill 自动为该 Skill 生成测试用例，形成 {skill_name}/SKILL.md 与 skill_meta.json 双文件结构，便于跨工具复用。
跨模型评估
- 通过 upskill eval ./skills/kernel-builder-cuda-kernels/ --model <model>，在目标模型（如本地的 unsloth/GLM-4.7-Flash-GGUF、OpenAI 的 haiku）上对比有无 Skill 的表现。
- 表格显示，使用 Skill 后模型的通过率从 40% 提升至 85% 以上，Token 消耗也出现显著下降。

实验结果

Model	Pass Rate (无 Skill)	Pass Rate (有 Skill)	Avg Tokens
haiku	4/5 (80%)	5/5 (100%)	1250
kimi	3/5 (60%)	5/5 (100%)	1890

从数据可见，Skill 对弱模型的提升尤为明显；在强模型（Claude Opus）上则基本持平，说明 Skill 已成功捕获任务核心而不依赖模型规模。

意义与展望

成本效益：利用昂贵的教师模型一次性生成 Skill，后续可在本地或低价 API 上复用，大幅降低研发成本。
知识迁移：Skill 将数小时的文档阅读和经验浓缩为约 500 Token 的可加载指令，帮助团队快速落地专业领域的 AI 辅助开发。
生态闭环：Upskill 的开放源码实现鼓励社区贡献更多领域 Skill，形成共享库，进一步推动开源大模型的实用化。

快速上手

pip install upskill
# 生成 Skill
upskill generate "build optimized CUDA kernels for PyTorch" --from ./trace.md
# 评估 Skill
upskill eval ./skills/kernel-builder-cuda-kernels/ --model haiku --model sonnet

通过上述步骤，开发者即可在自己的项目中引入经过验证的 CUDA 编程知识，让小模型也能胜任高性能计算任务。

Claude助力生成CUDA内核技能，Upskill让开源模型也能写GPU代码

背景

工作流程

实验结果

意义与展望

快速上手

标签分类