Claude助力生成CUDA内核技能,Upskill让开源模型也能写GPU代码
•28 阅读•4分钟•开源
ClaudeAgentUpskillCUDA
•28 阅读•4分钟•开源

背景
在生成式AI快速渗透软件开发的今天,如何让算力受限的模型也能完成高难度的专业任务成为关键挑战。Claude Opus 4.5 作为教师模型,能够在交互式对话中完成完整的 CUDA kernel 编写;而开源社区则提供了 Upskill 工具,用于将教师模型的操作轨迹抽象为可复用的 Skill 文件,并在多模型之间进行评估。
工作流程
-
教师模型生成内核
- 使用 Claude Code 与模型交互,迭代生成 kernel 代码并记录完整的会话轨迹(包括指令、验证步骤、文档链接)。
- 轨迹示例展示了模型在 H100 架构下如何设置
build.toml、选择共享内存以及使用__CUDA_ARCH__条件编译。
-
从轨迹创建 Skill
- 在同一会话中指令 Claude 将轨迹转化为
SKILL.md,或使用 Anthropic 提供的 skill creator 插件。 - Upskill 自动为该 Skill 生成测试用例,形成
{skill_name}/SKILL.md与skill_meta.json双文件结构,便于跨工具复用。
- 在同一会话中指令 Claude 将轨迹转化为
-
跨模型评估
- 通过
upskill eval ./skills/kernel-builder-cuda-kernels/ --model <model>,在目标模型(如本地的unsloth/GLM-4.7-Flash-GGUF、OpenAI 的haiku)上对比有无 Skill 的表现。 - 表格显示,使用 Skill 后模型的通过率从 40% 提升至 85% 以上,Token 消耗也出现显著下降。
- 通过
实验结果
| Model | Pass Rate (无 Skill) | Pass Rate (有 Skill) | Avg Tokens |
|---|---|---|---|
| haiku | 4/5 (80%) | 5/5 (100%) | 1250 |
| kimi | 3/5 (60%) | 5/5 (100%) | 1890 |
从数据可见,Skill 对弱模型的提升尤为明显;在强模型(Claude Opus)上则基本持平,说明 Skill 已成功捕获任务核心而不依赖模型规模。
意义与展望
- 成本效益:利用昂贵的教师模型一次性生成 Skill,后续可在本地或低价 API 上复用,大幅降低研发成本。
- 知识迁移:Skill 将数小时的文档阅读和经验浓缩为约 500 Token 的可加载指令,帮助团队快速落地专业领域的 AI 辅助开发。
- 生态闭环:Upskill 的开放源码实现鼓励社区贡献更多领域 Skill,形成共享库,进一步推动开源大模型的实用化。
快速上手
pip install upskill
# 生成 Skill
upskill generate "build optimized CUDA kernels for PyTorch" --from ./trace.md
# 评估 Skill
upskill eval ./skills/kernel-builder-cuda-kernels/ --model haiku --model sonnet
通过上述步骤,开发者即可在自己的项目中引入经过验证的 CUDA 编程知识,让小模型也能胜任高性能计算任务。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。