NVIDIA发布KGMON Data Explorer,实现DABStep基准首位并提升30倍推理速度

0 阅读4分钟前沿
NVIDIA发布KGMON Data Explorer,实现DABStep基准首位并提升30倍推理速度

背景与动机

在实际科研与商业分析中,结构化表格数据往往难以通过纯文本检索获得。传统的基于互联网搜索的深度研究代理在面对多步、工具调用密集的表格查询时表现不佳。为弥合这一鸿沟,NVIDIA的KGMON(NeMo Agent Toolkit)团队设计了Data Explorer,旨在让大模型像资深数据科学家一样,快速完成探索性数据分析(EDA)和规则化的表格问答。

系统架构

Data Explorer 采用两类代理循环:

  • ReAct + Jupyter Notebook:面向开放式探索,用户提交数据集后,ReAct 代理将自然语言指令转化为 Notebook 工具调用,实现代码生成、单元执行和可视化。
  • Tool‑Calling Agent:针对多步规则化问答,组合了有状态的 Python 解释器、检索器以及文件结构检测器,实现从文档读取到代码生成再到结果输出的完整闭环。

在工具输出包含图表时,系统会调用视觉语言模型(VLM)生成文字描述和改进建议,进一步提升交互体验。

多阶段方法实现 SOTA

为在 DABStep 基准上取得领先,团队将整体流程拆分为三大阶段:

  1. Learning Loop(学习阶段)
    • 使用重量级模型(如 Opus 4.5/4.6)在多轮循环中完成一批代表性任务。
    • 将每个任务的 Python 脚本归纳、抽象为统一的 helper.py 库,并生成 few‑shot 示例。
  2. Fast Inference(快速推理)
    • 在轻量模型 Haiku 4.5 上运行单轮循环,仅携带函数签名与简化系统提示,实现 20 秒/任务的极速响应。
  3. Offline Reflection(离线反思)
    • 通过重量模型离线审查代码与推理路径,使用 ReflectionGroup‑Consistency 两种技术检测错误、统一解法,并将洞见写回系统提示。

实验结果

模型Easy (Score)Hard (Score)Time/TaskCode Length
NVIDIA KGMON + Haiku 4.587.589.9520 s1 870 字符
Claude Code + Opus 4.590.266.9310 min5 011 字符
AntGroup DataPilot86.1187.57
Google AI DS‑STAR87.545.24

结果显示,虽然在 Easy 任务上略逊于 Claude Code(90.2 vs 87.5),但在占比 84% 的 Hard 任务上以 89.95 大幅领先,且推理速度提升约 30 倍,代码体积缩减至原来的 1/3。该方案在官方 DABStep 排行榜上夺得 第一名,并在 AntGroup 与 Google 的同类系统上保持优势。

意义与展望

  • 效率与可扩展性:通过前置学习与代码抽象,将复杂的多步推理转化为轻量模型的函数调用,显著降低算力成本。
  • 可复用工具库helper.py 形成可共享的业务函数集合,为后续任务提供即插即用的能力。
  • 离线质量控制:将昂贵的审查过程搬到离线环节,保证在线推理的速度与安全。

Data Explorer 的成功证明,面向结构化数据的 LLM 代理不必在每次推理时重新学习全部知识,只要在早期投入足够的“学习”成本,即可在后期实现高效、可靠的自动化分析。未来,NVIDIA 计划开放更多工具模板,并在 Hugging Face Spaces 上提供可直接运行的示例,帮助企业快速落地数据科学自动化。

行业观察:随着表格数据分析需求的激增,类似 KGMON 的三阶段框架可能成为新一代企业级智能分析平台的标配,推动从“查询答案”向“生成洞察”转型。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。