DeepEval助力LLM质量评估，自定义检索与LLM‑as‑Judge实现全链路自动化

背景与动机

随着生成式 AI 在企业级应用中的落地，检索增强生成（RAG）系统的可靠性成为焦点。传统的人工检查难以覆盖海量查询，且难以量化模型的幻觉与上下文依赖问题。本文展示了一套基于 DeepEval 的全自动化评估方案，旨在把 LLM 输出视作可测试代码，用 LLM‑as‑Judge 指标对每一次检索‑生成过程进行量化评估。

DeepEval 框架概述

DeepEval 是开源的 LLM 评估框架，提供了 AnswerRelevancyMetric、FaithfulnessMetric、ContextualPrecisionMetric、ContextualRecallMetric 等多种面向 RAG 场景的评估指标，并支持自定义 GEval（基于自然语言 Rubric 的评估）。框架的核心是 LLMTestCase 对象，统一封装查询、检索上下文、模型实际输出和金标准答案，便于批量调用 LLM‑as‑Judge 完成评分。

自定义检索实现

本文实现了一个简易的 TF‑IDF Retriever：

class TfidfRetriever:
    def __init__(self, docs):
        self.docs = docs
        self.texts = [f"{d['title']}
{d['text']}" for d in docs]
        self.vectorizer = TfidfVectorizer(stop_words="english", ngram_range=(1,2))
        self.matrix = self.vectorizer.fit_transform(self.texts)
    def retrieve(self, query, k=4):
        qv = self.vectorizer.transform([query])
        sims = cosine_similarity(qv, self.matrix).flatten()
        top_idx = np.argsort(-sims)[:k]
        return [{"id": self.docs[i]["id"], "score": float(sims[i]), "text": self.texts[i]} for i in top_idx]

该检索器对预先准备的文档片段进行向量化，返回与查询最相似的前四条上下文，为后续生成提供依据。

LLM‑as‑Judge 评估指标

在构建 test_cases 后，本文配置了六个核心指标：

AnswerRelevancyMetric：答案是否直接回应用户提问。
FaithfulnessMetric：答案是否严格基于检索到的上下文，防止幻觉。
ContextualRelevancyMetric：检索结果与查询的相关度。
ContextualPrecisionMetric 与 ContextualRecallMetric：分别衡量相关片段的排序质量和覆盖完整度。
GEval：使用自定义 Rubric（正确性、实用性、简洁性）让 LLM 进一步打分并给出理由。所有指标均采用 gpt-4.1 作为评判模型，阈值默认 0.5，开启异步模式提升吞吐。

实验结果与洞察

运行完整流水线后，系统输出了每条查询的分数表。典型观察包括：

Faithfulness 分数普遍低于 0.7，说明检索上下文仍有遗漏，导致模型产生未证实的陈述。
ContextualPrecision 与 Recall 成正相关，检索器排序优化后两项分数同步提升。
GEval 的理由字段帮助定位具体问题，例如“答案缺少关键细节”或“表达冗余”。通过对低分案例进行迭代改进（扩充文档、调优检索超参数），整体分数在一次迭代后提升约 12%。

结论与展望

本文展示的 DeepEval + 自定义检索 + LLM‑as‑Judge 方案，实现了对 RAG 系统的端到端自动化质量评估。相较于人工抽样检查，能够在大规模查询集上快速产出可解释的评分，为模型迭代提供可靠的安全网。未来工作可探索更高效的向量检索（如 MIPS、FAISS）以及多模型 ensemble 的评估策略，进一步提升 LLM 在企业级生产环境中的可信度。