Monday.com服务平台将评估嵌入AI客服研发,提升评估效率8.7倍
•26 阅读•4分钟•应用
LLMLangSmithMonday.comReActGitOps
•26 阅读•4分钟•应用

背景与挑战
Monday.com 的 AI 原生企业服务管理平台 Monday Service 旨在通过可定制的角色化 AI 代理,替代人工客服处理 IT、HR、法务等部门的工单。为了在上线前及时发现模型的质量问题,团队决定将评估从“第 0 步”就嵌入研发流程,而不是等到 Alpha 测试后再补救。
双层评估框架
团队提出“离线评估 + 在线评估”双层防线:
- 离线评估(安全网):类似单元测试,对模型进行金标准数据集的跑分,覆盖基础功能(检索准确性、工具调用、输出格式)以及边缘场景(知识库冲突、策略优先级)。
- 在线评估(监控):在生产环境实时收集多轮对话轨迹,使用 LLM‑as‑judge 评分整体业务指标(自动解决率、用户满意度等),形成闭环监控。
离线评估实现
- 数据集构建:先抽取约 30 条已解决的内部 IT 工单,覆盖身份认证、VPN、设备支持等常见类别。
- 检查点设计
- 稳定性:进程不崩溃、响应时长符合预期。
- 输出形状:返回 JSON/Schema 与期望一致。
- 工具调用:所有必需工具被正确触发并返回。
- LLM‑as‑judge:使用 OpenEvals 的 Correctness 评估与参考答案比对。
- 细化维度:加入 KB 依据、冲突处理、守护规则、检索时机等专项检查,利用 LangSmith 预置的幻觉检测、答案相关性等指标。
- 技术栈:基于 LangSmith 与 Vitest 的集成,实现每次 CI 运行自动记录为 LangSmith 实验,便于定位回归。
提升评估效率
最初离线评估串行执行,单次 162 秒的反馈周期成为瓶颈。团队采用以下两层并行策略:
- CPU 并行:Vitest 的
pool:'forks'将数据分片分配到多个进程。 - I/O 并发:在每个测试文件内部使用
ls.describe.concurrent,同时发起数十个 LLM 调用,最大化网络延迟吞吐。
经优化后,完整 30 条工单的评估在一台配备 Apple M3 Pro 的 MacBook Pro 上仅耗时 18.6 秒,提升 8.7 倍。
在线多轮评估
生产环境中,单轮响应难以衡量整体服务质量。团队使用 LangSmith 的 Multi‑Turn Evaluator,对完整对话轨迹进行打分,重点关注:
- 自动化解决率
- 多轮交互的连贯性与语气
- 最终是否达成业务目标
通过自定义 inactivity window 与抽样率,既控制成本,又实现近实时监控。
评估即代码(EaC)与 CI/CD
所有评估逻辑以 TypeScript 对象形式存放在代码库,遵循 GitOps 流程:
export const conversationAnalysis = new MultiSignalEvaluationPrompt({
name: 'conversation-analysis',
variables: ['all_messages'],
modelConfig: { model: 'gpt-5.2-pro', reasoning: { effort: 'high' } },
extractionFields: [...]
});
合并 PR 时,CI 自动执行 yarn eval deploy,完成:
- 同步 Prompt 到 LangSmith 注册表。
- 规则对齐:比较本地与线上评估定义,自动更新。
- 僵尸清理:删除不再存在的评估。
这种 “评估即基础设施” 的模式让质量控制与代码审查同等重要,降低回归风险。
业界意义
Monday Service 的全链路评估实践展示了在企业级 AI 代理中,如何通过代码化评估、并行加速和实时监控,实现从研发到生产的质量闭环。随着生成式 AI 生态的快速扩张,这一方案为其他企业提供了可复制的参考路径。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。