本地大模型免费驱动OpenClaw PR自动分类，提升开源维护效率

背景

OpenClaw 作为个人 AI 助手的开源代码库，每天都会产生大量的 Issue 与 Pull Request。传统上，维护者需要依赖 GPT‑5、Claude 等闭源大模型进行自动化分类，成本高且存在被封禁的风险。2026 年 6 月，项目维护者在本地硬件（NVIDIA GB10，128 GB 统一内存）上部署开源权重模型，探索“本地即服务”方案。

方案设计

模型选择：Gemma‑4‑26B‑a4b 与 Qwen‑3.6‑35B‑a3b，均可在 DGX Spark 上实现百余 token/秒的吞吐。
Agent 框架：基于 Pi agent，组合 bash（受限的 reposhell）与 final_json 两种工具，实现读取代码仓库后返回结构化标签。
分类标签：包括 local_models、self_hosted_inference、agent_runtime、codex、ui_tui 等约十余类，覆盖常见维护需求。
工作流：
1. GitHub webhook 将新 Issue/PR 写入本地 SQLite 队列；
2. Worker 拉取任务，构造统一的 GitHub 上下文（标题、正文、差异片段等），并调用本地模型进行一次性分类；
3. 分类结果写回数据库，触发 Discord 通知，仅向对应维护者推送感兴趣的标签。

实验结果

在 330 条标注集上对比三种模型的精度、召回和吞吐，关键指标如下：

指标	Gemma‑4‑26B	Qwen‑3.6‑35B	DeepSeek‑V4
Precision	0.716 ± 0.010	0.831 ± 0.007	0.938
Recall	0.905 ± 0.004	0.818 ± 0.006	0.714
F1	0.800 ± 0.008	0.824 ± 0.002	0.811
Exact match	0.410 ± 0.014	0.540 ± 0.014	0.509
每条耗时 (s)	1.41 ± 0.04	13.51 ± 0.79	144.14

Gemma 在召回率和处理速度上占优，适合高并发场景；Qwen 在精度和误报率上更佳，适合对误报敏感的业务。两者均在本地硬件上实现了免费（仅电费）的实时分类，完全摆脱了 ChatGPT Pro 等付费 API 的限制。

影响与展望

成本削减：使用本地模型后，月度算力成本约为数十美元，远低于云端 API 的几千美元消耗。
安全性提升：通过 reposhell 限制模型只能执行只读文件操作，防止潜在的指令注入风险。
可迁移性：该流水线的核心思路——agent + 受限 Shell + 结构化输出——可复用于开源项目的 Issue 分类、新闻稿过滤、客服工单分流等多种高吞吐场景。
后续工作：计划在更大规模的模型（如 Llama‑3‑70B）上进行微调，以进一步降低误报；同时探索将分类结果直接写入 GitHub Labels，实现闭环自动化管理。

“本地模型的免费即服务能力，让开源维护者不再受制于闭源大模型的费用和可用性。” — Onur Solmaz

通过这次实验，作者验证了中等规模本地模型在无需微调的情况下即可完成高质量的代码库 triage，为开源社区提供了一条可复制、低成本的 AI 自动化路径。

本地大模型免费驱动OpenClaw PR自动分类，提升开源维护效率

背景

方案设计

实验结果

影响与展望

标签分类