NVIDIA AI‑Q夺冠DeepResearch基准 I 与 II 为企业级研究代理树立新标杆

背景

NVIDIA 于 2026 年 3 月发布的 AI‑Q 深度研究代理，首次在 DeepResearch Bench I（得分 55.95）和 DeepResearch Bench II（得分 54.50）两项权威基准上夺得榜首。DeepResearch Bench 系列通过报告质量、信息召回、分析深度和可读性等维度，对研究型 AI 代理进行综合评估，已成为衡量企业级研究助手性能的行业标准。

AI‑Q 架构亮点

多代理协同：由 Orchestrator（编排器）、Planner（规划器）和 Researcher（研究员）三层组成，支持证据驱动的计划制定和并行专科检索。
模块化可配置：所有组件均基于 NVIDIA NeMo Agent Toolkit 与 LangChain DeepAgents，实现 YAML 配置即插即用，LLM 与工具链可自由替换。
核心模型：研究员子代理使用经 67k 条 SFT 轨迹微调的 Nemotron 3‑Super‑120B‑A12B，专注于多步推理、工具调用与引用生成。
可选 Ensemble 与 Refiner：并行运行多条研究流水线后，由大型 LLM 合并输出；后置 Refiner 再次校验报告结构、量化模糊表述，提升报告完整度。

DeepResearch 基准表现

Bench I：侧重报告的整体可读性、结构完整性和引用质量，AI‑Q 在综合评分上领先 1.2 分，报告平均字数、章节层次均符合最高等级。
Bench II：采用 70+ 细粒度二元评估项，覆盖信息召回、分析深度与呈现清晰度。AI‑Q 在信息召回率、事实准确率以及分析层次均取得显著优势，尤其在跨工具调用的长程推理上表现稳健。

关键技术要点

自研中间件：
- 工具名称清洗：通过模式匹配与模糊匹配纠正 LLM 幻觉产生的错误工具名。
- 推理感知重试：检测到仅有思考 token 而无工具调用时自动重试，防止循环中断。
- 预算控制：为每个子代理设定工具调用上限，超额后强制转为纯文本生成。
数据与训练：
- 采集 17k 条 OpenScholar、21k 条 ResearchQA 与 2.5k 条 Fathom‑DeepResearch‑SFT 问题。
- 使用 GPT‑OSS‑120B 生成约 80k 条完整工作流轨迹，随后经 Qwen3‑Nemotron‑32B‑GenRM‑Principle 判官模型筛选至 67k 条高质量样本。
- 单卡 16×8 NVIDIA H100 完成 1 epoch 约 25 小时的 SFT 训练。
长程可靠性：通过上述中间件与 Ensemble 设计，确保在 30+ 步的多工具交互中仍能保持信息完整、推理连贯。

行业意义与展望

AI‑Q 的双基准冠军证明了开放、可审计的多代理体系能够在复杂研究任务上匹配甚至超越封闭的商业方案。对企业而言，这意味着可以在内部部署可完全掌控的数据管道与模型，既满足合规要求，又不牺牲性能。NVIDIA 计划在 3 月中旬的 GTC 大会上进一步公开完整配置文件与代码示例，推动生态伙伴快速复现并基于此构建行业专属的智能数字工作者。

“AI‑Q 展示了从检索到报告全链路可控的可能性，为企业级研究代理树立了新的技术标杆。”—— NVIDIA AI‑Q 项目负责人 David Austin

未来，随着更大规模的算力投入与更丰富的跨模态工具集成，AI‑Q 有望在科研、法律、金融等高价值领域实现端到端的智能研究自动化。

NVIDIA AI‑Q夺冠DeepResearch基准 I 与 II 为企业级研究代理树立新标杆

背景

AI‑Q 架构亮点

DeepResearch 基准表现

关键技术要点

行业意义与展望

标签分类