Claude助力生成CUDA内核技能,Upskill让开源模型也能写GPU代码

28 阅读4分钟开源
Claude助力生成CUDA内核技能,Upskill让开源模型也能写GPU代码

背景

在生成式AI快速渗透软件开发的今天,如何让算力受限的模型也能完成高难度的专业任务成为关键挑战。Claude Opus 4.5 作为教师模型,能够在交互式对话中完成完整的 CUDA kernel 编写;而开源社区则提供了 Upskill 工具,用于将教师模型的操作轨迹抽象为可复用的 Skill 文件,并在多模型之间进行评估。

工作流程

  1. 教师模型生成内核

    • 使用 Claude Code 与模型交互,迭代生成 kernel 代码并记录完整的会话轨迹(包括指令、验证步骤、文档链接)。
    • 轨迹示例展示了模型在 H100 架构下如何设置 build.toml、选择共享内存以及使用 __CUDA_ARCH__ 条件编译。
  2. 从轨迹创建 Skill

    • 在同一会话中指令 Claude 将轨迹转化为 SKILL.md,或使用 Anthropic 提供的 skill creator 插件。
    • Upskill 自动为该 Skill 生成测试用例,形成 {skill_name}/SKILL.mdskill_meta.json 双文件结构,便于跨工具复用。
  3. 跨模型评估

    • 通过 upskill eval ./skills/kernel-builder-cuda-kernels/ --model <model>,在目标模型(如本地的 unsloth/GLM-4.7-Flash-GGUF、OpenAI 的 haiku)上对比有无 Skill 的表现。
    • 表格显示,使用 Skill 后模型的通过率从 40% 提升至 85% 以上,Token 消耗也出现显著下降。

实验结果

ModelPass Rate (无 Skill)Pass Rate (有 Skill)Avg Tokens
haiku4/5 (80%)5/5 (100%)1250
kimi3/5 (60%)5/5 (100%)1890

从数据可见,Skill 对弱模型的提升尤为明显;在强模型(Claude Opus)上则基本持平,说明 Skill 已成功捕获任务核心而不依赖模型规模。

意义与展望

  • 成本效益:利用昂贵的教师模型一次性生成 Skill,后续可在本地或低价 API 上复用,大幅降低研发成本。
  • 知识迁移:Skill 将数小时的文档阅读和经验浓缩为约 500 Token 的可加载指令,帮助团队快速落地专业领域的 AI 辅助开发。
  • 生态闭环:Upskill 的开放源码实现鼓励社区贡献更多领域 Skill,形成共享库,进一步推动开源大模型的实用化。

快速上手

pip install upskill
# 生成 Skill
upskill generate "build optimized CUDA kernels for PyTorch" --from ./trace.md
# 评估 Skill
upskill eval ./skills/kernel-builder-cuda-kernels/ --model haiku --model sonnet

通过上述步骤,开发者即可在自己的项目中引入经过验证的 CUDA 编程知识,让小模型也能胜任高性能计算任务。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。