OpenAI宣布SWE‑bench Verified不再可信,转向SWE‑bench Pro评估前沿编码能力

背景
自2024年8月发布以来,SWE‑bench Verified一直是衡量大型语言模型在自主软件工程任务上表现的标准指标。OpenAI 最初通过三位专家独立审查 1,699 条任务,筛选出 500 条高质量题目,以解决原始 SWE‑bench 中测试设计不当的问题。此后,多家机构在模型发布时引用该基准,成为前沿模型能力的风向标。
关键问题
测试用例误判
审计 138 条模型经常失利的任务后,超过 59% 的问题存在测试设计缺陷,其中 35.5% 为过窄测试——强制实现特定实现细节导致功能正确的提交被错误拒绝;18.8% 为过宽测试——测试检查了任务描述未涉及的额外功能。这些缺陷让分数难以反映真实能力。
训练数据泄漏
SWE‑bench 的题目来源于公开的 GitHub 仓库,几乎所有前沿模型在训练时都会接触到这些代码及其修复补丁。OpenAI 通过多模型对比发现,模型能够完整复现金补丁或精确记忆问题描述的比例极高,说明它们在训练阶段已经“见过”评估数据。进一步的红队实验表明,针对特定任务的提示可以诱导模型输出几乎原文的金补丁,验证了严重的污染风险。
数据泄漏的影响
由于模型对评估数据的记忆,SWE‑bench Verified 的分数增长更多反映了模型对基准的熟悉程度,而非真实的代码生成或调试能力。OpenAI 观察到,过去六个月的整体准确率仅从 74.9% 提升至 80.9%,进步幅度与模型规模提升不匹配,进一步印证了分数失真。
新评估方案:SWE‑bench Pro
为解决上述问题,OpenAI 推出了 SWE‑bench Pro。该基准在三方面做出改进:
- 全新任务集:所有任务均由内部专家全新撰写,未在公开代码库出现过,降低训练泄漏概率。
- 双层测试:采用严格的功能测试+行为一致性检查,确保实现细节不影响分数。
- 防泄漏机制:在数据发布前对任务进行加密并限制公开访问,仅对受信机构提供评估接口。
OpenAI 已停止在官方报告中公布 SWE‑bench Verified 的成绩,并强烈建议其他模型研发团队同步迁移。
行业影响
此举对整个生成式 AI 研发社区具有警示意义。随着模型规模突破数百亿参数,公开基准的污染风险将日益凸显,评估方法必须向 私有化、可审计 转变。未来,更多组织可能会采用类似 SWE‑bench Pro 的封闭评估流程,以确保竞争公平并真实捕捉技术进步。
“评估的可信度是推动前沿模型研发的基石,只有在数据安全和测试严谨性上做到位,才能真正衡量模型的实用价值。”——OpenAI 研究团队