LangChain推出LangSmith CLI与技能集,编码代理性能跃升至92%

0 阅读4分钟开源
LangChain推出LangSmith CLI与技能集,编码代理性能跃升至92%

背景

随着大模型代理在软件开发领域的落地,如何让代理自行调试、生成测试集并评估自身表现成为瓶颈。LangChain 为此打造了 LangSmith 平台,提供统一的追踪与评估服务。此次发布的 CLI 与 Skills,正是围绕“代理‑终端”交互设计的关键工具。

LangSmith CLI概述

  • 原生代理友好:CLI 直接面向编码代理,支持在终端内完成抓取追踪、构建数据集、运行实验等全流程。
  • 功能模块
    • trace:为已有代码注入追踪逻辑并查询追踪记录。
    • dataset:基于追踪数据自动生成示例数据集。
    • evaluator:对指定数据集执行评估,输出通过率等关键指标。
  • 安装方式:一行脚本即可部署 curl -sSL https://raw.githubusercontent.com/langchain-ai/langsmith-cli/main/scripts/install.sh | sh

Skills详解

Skills 是一组可按需加载的 markdown 与脚本,旨在提升代理在特定任务上的表现。当前仓库提供三类技能:

  1. trace – 为代码添加追踪并实时查询。
  2. dataset – 自动收集执行样本,生成结构化数据集。
  3. evaluator – 基于数据集运行评估,返回通过率、错误分布等报告。

这些技能采用 渐进披露(progressive disclosure)机制,代理仅在任务需要时检索对应技能,避免工具过载导致性能下降。

性能提升与评估结果

在 LangSmith 官方评测集上,未使用 Skills 的 Claude Code 通过率仅为 17%,而加入 Skills 后提升至 92%(基于 Sonnet 4.6 评估基准)。表格摘录如下:

模型是否使用 Skills通过率
Claude Code未使用17%
Claude Code使用 Skills92%

评估过程完全基于 LangSmith 的追踪与数据集功能,测试基准计划开源供社区复现。

安装与使用指南

  • 本地项目npx skills add langchain-ai/langsmith-skills --skill '*' --yes
  • 全局安装npx skills add langchain-ai/langsmith-skills --skill '*' --yes --global
  • 绑定特定代理(如 Claude Code):npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --global

通过上述命令,开发者即可在任意支持 Skills 功能的代理中快速启用追踪、数据集与评估能力。

行业意义

LangSmith CLI 与 Skills 的开源发布,为 agent‑first 开发模式提供了完整的闭环:从代码执行追踪、自动化数据集生成,到持续评估与迭代。该闭环有望加速 LLM 代理在软件开发、代码审查等专业场景的落地,并推动社区围绕可复用技能生态的共建。

“让代理像人类工程师一样在终端中自我调试,是下一代智能编码助手的必由之路。”——LangChain 官方博客

未来,LangChain 将继续扩展 Skills 库,涵盖 LangChain、LangGraph 与 DeepAgents 等开源组件,进一步丰富代理的工具箱。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。