NVIDIA发布KGMON Data Explorer,实现DABStep基准首位并提升30倍推理速度
•0 阅读•4分钟•前沿
NVIDIAKGMONDABStepNeMoHaiku
•0 阅读•4分钟•前沿

背景与动机
在实际科研与商业分析中,结构化表格数据往往难以通过纯文本检索获得。传统的基于互联网搜索的深度研究代理在面对多步、工具调用密集的表格查询时表现不佳。为弥合这一鸿沟,NVIDIA的KGMON(NeMo Agent Toolkit)团队设计了Data Explorer,旨在让大模型像资深数据科学家一样,快速完成探索性数据分析(EDA)和规则化的表格问答。
系统架构
Data Explorer 采用两类代理循环:
- ReAct + Jupyter Notebook:面向开放式探索,用户提交数据集后,ReAct 代理将自然语言指令转化为 Notebook 工具调用,实现代码生成、单元执行和可视化。
- Tool‑Calling Agent:针对多步规则化问答,组合了有状态的 Python 解释器、检索器以及文件结构检测器,实现从文档读取到代码生成再到结果输出的完整闭环。
在工具输出包含图表时,系统会调用视觉语言模型(VLM)生成文字描述和改进建议,进一步提升交互体验。
多阶段方法实现 SOTA
为在 DABStep 基准上取得领先,团队将整体流程拆分为三大阶段:
- Learning Loop(学习阶段)
- 使用重量级模型(如 Opus 4.5/4.6)在多轮循环中完成一批代表性任务。
- 将每个任务的 Python 脚本归纳、抽象为统一的
helper.py库,并生成 few‑shot 示例。
- Fast Inference(快速推理)
- 在轻量模型 Haiku 4.5 上运行单轮循环,仅携带函数签名与简化系统提示,实现 20 秒/任务的极速响应。
- Offline Reflection(离线反思)
- 通过重量模型离线审查代码与推理路径,使用 Reflection 与 Group‑Consistency 两种技术检测错误、统一解法,并将洞见写回系统提示。
实验结果
| 模型 | Easy (Score) | Hard (Score) | Time/Task | Code Length |
|---|---|---|---|---|
| NVIDIA KGMON + Haiku 4.5 | 87.5 | 89.95 | 20 s | 1 870 字符 |
| Claude Code + Opus 4.5 | 90.2 | 66.93 | 10 min | 5 011 字符 |
| AntGroup DataPilot | 86.11 | 87.57 | – | – |
| Google AI DS‑STAR | 87.5 | 45.24 | – | – |
结果显示,虽然在 Easy 任务上略逊于 Claude Code(90.2 vs 87.5),但在占比 84% 的 Hard 任务上以 89.95 大幅领先,且推理速度提升约 30 倍,代码体积缩减至原来的 1/3。该方案在官方 DABStep 排行榜上夺得 第一名,并在 AntGroup 与 Google 的同类系统上保持优势。
意义与展望
- 效率与可扩展性:通过前置学习与代码抽象,将复杂的多步推理转化为轻量模型的函数调用,显著降低算力成本。
- 可复用工具库:
helper.py形成可共享的业务函数集合,为后续任务提供即插即用的能力。 - 离线质量控制:将昂贵的审查过程搬到离线环节,保证在线推理的速度与安全。
Data Explorer 的成功证明,面向结构化数据的 LLM 代理不必在每次推理时重新学习全部知识,只要在早期投入足够的“学习”成本,即可在后期实现高效、可靠的自动化分析。未来,NVIDIA 计划开放更多工具模板,并在 Hugging Face Spaces 上提供可直接运行的示例,帮助企业快速落地数据科学自动化。
行业观察:随着表格数据分析需求的激增,类似 KGMON 的三阶段框架可能成为新一代企业级智能分析平台的标配,推动从“查询答案”向“生成洞察”转型。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。