LangChain推出LangSmith CLI与技能集，编码代理性能跃升至92%

背景

随着大模型代理在软件开发领域的落地，如何让代理自行调试、生成测试集并评估自身表现成为瓶颈。LangChain 为此打造了 LangSmith 平台，提供统一的追踪与评估服务。此次发布的 CLI 与 Skills，正是围绕“代理‑终端”交互设计的关键工具。

原生代理友好：CLI 直接面向编码代理，支持在终端内完成抓取追踪、构建数据集、运行实验等全流程。
功能模块：
- trace：为已有代码注入追踪逻辑并查询追踪记录。
- dataset：基于追踪数据自动生成示例数据集。
- evaluator：对指定数据集执行评估，输出通过率等关键指标。
安装方式：一行脚本即可部署 curl -sSL https://raw.githubusercontent.com/langchain-ai/langsmith-cli/main/scripts/install.sh | sh。

Skills 是一组可按需加载的 markdown 与脚本，旨在提升代理在特定任务上的表现。当前仓库提供三类技能：

这些技能采用 渐进披露（progressive disclosure）机制，代理仅在任务需要时检索对应技能，避免工具过载导致性能下降。

在 LangSmith 官方评测集上，未使用 Skills 的 Claude Code 通过率仅为 17%，而加入 Skills 后提升至 92%（基于 Sonnet 4.6 评估基准）。表格摘录如下：

模型	是否使用 Skills	通过率
Claude Code	未使用	17%
Claude Code	使用 Skills	92%

评估过程完全基于 LangSmith 的追踪与数据集功能，测试基准计划开源供社区复现。

本地项目：npx skills add langchain-ai/langsmith-skills --skill '*' --yes
全局安装：npx skills add langchain-ai/langsmith-skills --skill '*' --yes --global
绑定特定代理（如 Claude Code）：npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --global

通过上述命令，开发者即可在任意支持 Skills 功能的代理中快速启用追踪、数据集与评估能力。

LangSmith CLI 与 Skills 的开源发布，为 agent‑first 开发模式提供了完整的闭环：从代码执行追踪、自动化数据集生成，到持续评估与迭代。该闭环有望加速 LLM 代理在软件开发、代码审查等专业场景的落地，并推动社区围绕可复用技能生态的共建。

“让代理像人类工程师一样在终端中自我调试，是下一代智能编码助手的必由之路。”——LangChain 官方博客

未来，LangChain 将继续扩展 Skills 库，涵盖 LangChain、LangGraph 与 DeepAgents 等开源组件，进一步丰富代理的工具箱。