NVIDIA发布KGMON Data Explorer，实现DABStep基准首位并提升30倍推理速度

背景与动机

在实际科研与商业分析中，结构化表格数据往往难以通过纯文本检索获得。传统的基于互联网搜索的深度研究代理在面对多步、工具调用密集的表格查询时表现不佳。为弥合这一鸿沟，NVIDIA的KGMON（NeMo Agent Toolkit）团队设计了Data Explorer，旨在让大模型像资深数据科学家一样，快速完成探索性数据分析（EDA）和规则化的表格问答。

系统架构

Data Explorer 采用两类代理循环：

ReAct + Jupyter Notebook：面向开放式探索，用户提交数据集后，ReAct 代理将自然语言指令转化为 Notebook 工具调用，实现代码生成、单元执行和可视化。
Tool‑Calling Agent：针对多步规则化问答，组合了有状态的 Python 解释器、检索器以及文件结构检测器，实现从文档读取到代码生成再到结果输出的完整闭环。

在工具输出包含图表时，系统会调用视觉语言模型（VLM）生成文字描述和改进建议，进一步提升交互体验。

多阶段方法实现 SOTA

为在 DABStep 基准上取得领先，团队将整体流程拆分为三大阶段：

Learning Loop（学习阶段）
- 使用重量级模型（如 Opus 4.5/4.6）在多轮循环中完成一批代表性任务。
- 将每个任务的 Python 脚本归纳、抽象为统一的 helper.py 库，并生成 few‑shot 示例。
Fast Inference（快速推理）
- 在轻量模型 Haiku 4.5 上运行单轮循环，仅携带函数签名与简化系统提示，实现 20 秒/任务的极速响应。
Offline Reflection（离线反思）
- 通过重量模型离线审查代码与推理路径，使用 Reflection 与 Group‑Consistency 两种技术检测错误、统一解法，并将洞见写回系统提示。

实验结果

模型	Easy (Score)	Hard (Score)	Time/Task	Code Length
NVIDIA KGMON + Haiku 4.5	87.5	89.95	20 s	1 870 字符
Claude Code + Opus 4.5	90.2	66.93	10 min	5 011 字符
AntGroup DataPilot	86.11	87.57	–	–
Google AI DS‑STAR	87.5	45.24	–	–

结果显示，虽然在 Easy 任务上略逊于 Claude Code（90.2 vs 87.5），但在占比 84% 的 Hard 任务上以 89.95 大幅领先，且推理速度提升约 30 倍，代码体积缩减至原来的 1/3。该方案在官方 DABStep 排行榜上夺得 第一名，并在 AntGroup 与 Google 的同类系统上保持优势。

意义与展望

效率与可扩展性：通过前置学习与代码抽象，将复杂的多步推理转化为轻量模型的函数调用，显著降低算力成本。
可复用工具库：helper.py 形成可共享的业务函数集合，为后续任务提供即插即用的能力。
离线质量控制：将昂贵的审查过程搬到离线环节，保证在线推理的速度与安全。

Data Explorer 的成功证明，面向结构化数据的 LLM 代理不必在每次推理时重新学习全部知识，只要在早期投入足够的“学习”成本，即可在后期实现高效、可靠的自动化分析。未来，NVIDIA 计划开放更多工具模板，并在 Hugging Face Spaces 上提供可直接运行的示例，帮助企业快速落地数据科学自动化。

行业观察：随着表格数据分析需求的激增，类似 KGMON 的三阶段框架可能成为新一代企业级智能分析平台的标配，推动从“查询答案”向“生成洞察”转型。