LangChain推出LangSmith CLI与技能集,编码代理性能跃升至92%
•0 阅读•4分钟•开源
ClaudeLangChainLangSmith
•0 阅读•4分钟•开源

背景
随着大模型代理在软件开发领域的落地,如何让代理自行调试、生成测试集并评估自身表现成为瓶颈。LangChain 为此打造了 LangSmith 平台,提供统一的追踪与评估服务。此次发布的 CLI 与 Skills,正是围绕“代理‑终端”交互设计的关键工具。
LangSmith CLI概述
- 原生代理友好:CLI 直接面向编码代理,支持在终端内完成抓取追踪、构建数据集、运行实验等全流程。
- 功能模块:
trace:为已有代码注入追踪逻辑并查询追踪记录。dataset:基于追踪数据自动生成示例数据集。evaluator:对指定数据集执行评估,输出通过率等关键指标。
- 安装方式:一行脚本即可部署
curl -sSL https://raw.githubusercontent.com/langchain-ai/langsmith-cli/main/scripts/install.sh | sh。
Skills详解
Skills 是一组可按需加载的 markdown 与脚本,旨在提升代理在特定任务上的表现。当前仓库提供三类技能:
- trace – 为代码添加追踪并实时查询。
- dataset – 自动收集执行样本,生成结构化数据集。
- evaluator – 基于数据集运行评估,返回通过率、错误分布等报告。
这些技能采用 渐进披露(progressive disclosure)机制,代理仅在任务需要时检索对应技能,避免工具过载导致性能下降。
性能提升与评估结果
在 LangSmith 官方评测集上,未使用 Skills 的 Claude Code 通过率仅为 17%,而加入 Skills 后提升至 92%(基于 Sonnet 4.6 评估基准)。表格摘录如下:
| 模型 | 是否使用 Skills | 通过率 |
|---|---|---|
| Claude Code | 未使用 | 17% |
| Claude Code | 使用 Skills | 92% |
评估过程完全基于 LangSmith 的追踪与数据集功能,测试基准计划开源供社区复现。
安装与使用指南
- 本地项目:
npx skills add langchain-ai/langsmith-skills --skill '*' --yes - 全局安装:
npx skills add langchain-ai/langsmith-skills --skill '*' --yes --global - 绑定特定代理(如 Claude Code):
npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --global
通过上述命令,开发者即可在任意支持 Skills 功能的代理中快速启用追踪、数据集与评估能力。
行业意义
LangSmith CLI 与 Skills 的开源发布,为 agent‑first 开发模式提供了完整的闭环:从代码执行追踪、自动化数据集生成,到持续评估与迭代。该闭环有望加速 LLM 代理在软件开发、代码审查等专业场景的落地,并推动社区围绕可复用技能生态的共建。
“让代理像人类工程师一样在终端中自我调试,是下一代智能编码助手的必由之路。”——LangChain 官方博客
未来,LangChain 将继续扩展 Skills 库,涵盖 LangChain、LangGraph 与 DeepAgents 等开源组件,进一步丰富代理的工具箱。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。