DSGym推出容器化基底，统一评测千级数据科学代理任务

背景

近年来，随着大型语言模型（LLM）在代码生成与数据分析上的突破，数据科学代理（Data Science Agents）成为研究热点。然而已有基准如 QRData、DAEval 等往往隐藏数据文件，使模型通过文本模式匹配即可取得高分，无法真实衡量其数据处理能力。为此，斯坦福、哈佛、杜克以及 Together AI 的研究团队推出 DSGym，旨在提供一个“容器化‑代码‑评测”三位一体的统一平台。

框架概述

DSGym 将评测拆解为 Task、Agent、Environment 三大对象：

Task：分为 Data Analysis（提供文件+自然语言问题）和 Data Prediction（提供训练/测试划分及评估指标）。
Agent：遵循 CodeAct 循环——先给出推理块，再执行代码块，最后输出答案块。
Environment：基于 Docker 容器的管理‑工作节点集群，所有数据以只读卷挂载，工作区可写，并预装领域专用 Python 库。

这种设计保证了每一次代码执行都在隔离且可复现的环境中进行，避免了跨任务污染。

任务与数据集

在原有基准的基础上，DSGym 对 QRData、DAEval、DABStep、MLEBench Lite 等进行清洗，剔除无法评分或可通过纯文本解答的题目，形成 DSGym‑Tasks。此外新增两大子集：

DSBio：90 条来源于生物信息学论文的任务，覆盖单细胞、空间组学等，提供确定性数值或分类答案。
DSPredict：从近期 Kaggle 比赛爬取的 92 项真实预测挑战，分为 Easy（38 项）和 Hard（54 项）。

整体规模达 972 条数据分析任务 + 114 条预测任务。

评测结果

使用统一的 CodeAct 代理（温度 0、禁用工具）对多种模型进行评测，主要包括：

闭源模型：GPT‑5.1、GPT‑5、GPT‑4o
开源大模型：Qwen3‑Coder‑480B、Qwen3‑235B‑Instruct、GPT‑OSS‑120B
小模型：Qwen2.5‑7B‑Instruct、Qwen3‑4B‑Instruct

关键发现

在清洗后的通用分析基准（QRData Verified、DAEval Verified）上，前沿模型的 Exact Match 介于 60%‑90%。
在 DSBio 上，最高准确率仅 43.33%（Kimi‑K2‑Instruct），且 85‑96% 的错误源于领域库使用错误或生物学解释失误。
在 DSPredict Easy 中，主流模型的有效提交率超过 80%；但在 Hard 中，超过 70% 的模型难以提交有效结果，Kaggle 排名几乎为零。
结果显示模型普遍存在 简易性偏差：在可行的基线解答后停止探索，更复杂的模型调参与特征工程仍显不足。

训练与提升

DSGym 同时提供合成数据生成管线：从 QRData 与 DABStep 中抽取子集，让代理自行探索数据、提出问题并记录完整轨迹，生成约 3,700 条查询‑轨迹对。经 Judge 模型筛选后得到 2,000 条高质量的 DSGym‑SFT 数据。基于此微调的 4B Qwen3 模型在标准分析基准上已能逼近 GPT‑4o 的水平，证明 执行‑感知监督 是提升数据科学代理的有效路径。

影响与展望

DSGym 为学术界与工业界提供了一个可复用、可扩展的评测生态：

统一标准：任务、代理、环境三层抽象消除了不同基准之间的碎片化。
真实代码驱动：评测过程完全基于容器化代码执行，确保答案可验证、可复现。
数据工厂：合成轨迹生成与过滤机制为小模型提供了高质量的微调数据，降低了大模型依赖的门槛。

未来，随着更多领域（如金融、气候科学）数据集的加入，以及更强大的工具集成（如自动特征工程、超参数搜索），DSGym 有望成为数据科学代理研发的核心基准平台。

本文基于作者在 MarkTechPost 的报道及原始 arXiv 论文（https://arxiv.org/pdf/2601.16344）整理。