DSGym推出容器化基底,统一评测千级数据科学代理任务

23 阅读5分钟前沿
DSGym推出容器化基底,统一评测千级数据科学代理任务

背景

近年来,随着大型语言模型(LLM)在代码生成与数据分析上的突破,数据科学代理(Data Science Agents)成为研究热点。然而已有基准如 QRData、DAEval 等往往隐藏数据文件,使模型通过文本模式匹配即可取得高分,无法真实衡量其数据处理能力。为此,斯坦福、哈佛、杜克以及 Together AI 的研究团队推出 DSGym,旨在提供一个“容器化‑代码‑评测”三位一体的统一平台。

框架概述

DSGym 将评测拆解为 Task、Agent、Environment 三大对象:

  • Task:分为 Data Analysis(提供文件+自然语言问题)和 Data Prediction(提供训练/测试划分及评估指标)。
  • Agent:遵循 CodeAct 循环——先给出推理块,再执行代码块,最后输出答案块。
  • Environment:基于 Docker 容器的管理‑工作节点集群,所有数据以只读卷挂载,工作区可写,并预装领域专用 Python 库。

这种设计保证了每一次代码执行都在隔离且可复现的环境中进行,避免了跨任务污染。

任务与数据集

在原有基准的基础上,DSGym 对 QRData、DAEval、DABStep、MLEBench Lite 等进行清洗,剔除无法评分或可通过纯文本解答的题目,形成 DSGym‑Tasks。此外新增两大子集:

  • DSBio:90 条来源于生物信息学论文的任务,覆盖单细胞、空间组学等,提供确定性数值或分类答案。
  • DSPredict:从近期 Kaggle 比赛爬取的 92 项真实预测挑战,分为 Easy(38 项)和 Hard(54 项)。

整体规模达 972 条数据分析任务 + 114 条预测任务。

评测结果

使用统一的 CodeAct 代理(温度 0、禁用工具)对多种模型进行评测,主要包括:

  • 闭源模型:GPT‑5.1、GPT‑5、GPT‑4o
  • 开源大模型:Qwen3‑Coder‑480B、Qwen3‑235B‑Instruct、GPT‑OSS‑120B
  • 小模型:Qwen2.5‑7B‑Instruct、Qwen3‑4B‑Instruct

关键发现

  • 在清洗后的通用分析基准(QRData Verified、DAEval Verified)上,前沿模型的 Exact Match 介于 60%‑90%
  • DSBio 上,最高准确率仅 43.33%(Kimi‑K2‑Instruct),且 85‑96% 的错误源于领域库使用错误或生物学解释失误。
  • DSPredict Easy 中,主流模型的有效提交率超过 80%;但在 Hard 中,超过 70% 的模型难以提交有效结果,Kaggle 排名几乎为零。
  • 结果显示模型普遍存在 简易性偏差:在可行的基线解答后停止探索,更复杂的模型调参与特征工程仍显不足。

训练与提升

DSGym 同时提供合成数据生成管线:从 QRData 与 DABStep 中抽取子集,让代理自行探索数据、提出问题并记录完整轨迹,生成约 3,700 条查询‑轨迹对。经 Judge 模型筛选后得到 2,000 条高质量的 DSGym‑SFT 数据。基于此微调的 4B Qwen3 模型在标准分析基准上已能逼近 GPT‑4o 的水平,证明 执行‑感知监督 是提升数据科学代理的有效路径。

影响与展望

DSGym 为学术界与工业界提供了一个可复用、可扩展的评测生态:

  • 统一标准:任务、代理、环境三层抽象消除了不同基准之间的碎片化。
  • 真实代码驱动:评测过程完全基于容器化代码执行,确保答案可验证、可复现。
  • 数据工厂:合成轨迹生成与过滤机制为小模型提供了高质量的微调数据,降低了大模型依赖的门槛。

未来,随着更多领域(如金融、气候科学)数据集的加入,以及更强大的工具集成(如自动特征工程、超参数搜索),DSGym 有望成为数据科学代理研发的核心基准平台。


本文基于作者在 MarkTechPost 的报道及原始 arXiv 论文(https://arxiv.org/pdf/2601.16344)整理。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。