Monday.com服务平台将评估嵌入AI客服研发，提升评估效率8.7倍

背景与挑战

Monday.com 的 AI 原生企业服务管理平台 Monday Service 旨在通过可定制的角色化 AI 代理，替代人工客服处理 IT、HR、法务等部门的工单。为了在上线前及时发现模型的质量问题，团队决定将评估从“第 0 步”就嵌入研发流程，而不是等到 Alpha 测试后再补救。

双层评估框架

团队提出“离线评估 + 在线评估”双层防线：

离线评估（安全网）：类似单元测试，对模型进行金标准数据集的跑分，覆盖基础功能（检索准确性、工具调用、输出格式）以及边缘场景（知识库冲突、策略优先级）。
在线评估（监控）：在生产环境实时收集多轮对话轨迹，使用 LLM‑as‑judge 评分整体业务指标（自动解决率、用户满意度等），形成闭环监控。

离线评估实现

数据集构建：先抽取约 30 条已解决的内部 IT 工单，覆盖身份认证、VPN、设备支持等常见类别。
检查点设计
- 稳定性：进程不崩溃、响应时长符合预期。
- 输出形状：返回 JSON/Schema 与期望一致。
- 工具调用：所有必需工具被正确触发并返回。
- LLM‑as‑judge：使用 OpenEvals 的 Correctness 评估与参考答案比对。
细化维度：加入 KB 依据、冲突处理、守护规则、检索时机等专项检查，利用 LangSmith 预置的幻觉检测、答案相关性等指标。
技术栈：基于 LangSmith 与 Vitest 的集成，实现每次 CI 运行自动记录为 LangSmith 实验，便于定位回归。

提升评估效率

最初离线评估串行执行，单次 162 秒的反馈周期成为瓶颈。团队采用以下两层并行策略：

CPU 并行：Vitest 的 pool:'forks' 将数据分片分配到多个进程。
I/O 并发：在每个测试文件内部使用 ls.describe.concurrent，同时发起数十个 LLM 调用，最大化网络延迟吞吐。

经优化后，完整 30 条工单的评估在一台配备 Apple M3 Pro 的 MacBook Pro 上仅耗时 18.6 秒，提升 8.7 倍。

在线多轮评估

生产环境中，单轮响应难以衡量整体服务质量。团队使用 LangSmith 的 Multi‑Turn Evaluator，对完整对话轨迹进行打分，重点关注：

自动化解决率
多轮交互的连贯性与语气
最终是否达成业务目标

通过自定义 inactivity window 与抽样率，既控制成本，又实现近实时监控。

评估即代码（EaC）与 CI/CD

所有评估逻辑以 TypeScript 对象形式存放在代码库，遵循 GitOps 流程：

export const conversationAnalysis = new MultiSignalEvaluationPrompt({
  name: 'conversation-analysis',
  variables: ['all_messages'],
  modelConfig: { model: 'gpt-5.2-pro', reasoning: { effort: 'high' } },
  extractionFields: [...]
});

合并 PR 时，CI 自动执行 yarn eval deploy，完成：

同步 Prompt 到 LangSmith 注册表。
规则对齐：比较本地与线上评估定义，自动更新。
僵尸清理：删除不再存在的评估。

这种 “评估即基础设施” 的模式让质量控制与代码审查同等重要，降低回归风险。

业界意义

Monday Service 的全链路评估实践展示了在企业级 AI 代理中，如何通过代码化评估、并行加速和实时监控，实现从研发到生产的质量闭环。随着生成式 AI 生态的快速扩张，这一方案为其他企业提供了可复制的参考路径。