OpenAI宣布SWE‑bench Verified不再可信，转向SWE‑bench Pro评估前沿编码能力

背景

自2024年8月发布以来，SWE‑bench Verified一直是衡量大型语言模型在自主软件工程任务上表现的标准指标。OpenAI 最初通过三位专家独立审查 1,699 条任务，筛选出 500 条高质量题目，以解决原始 SWE‑bench 中测试设计不当的问题。此后，多家机构在模型发布时引用该基准，成为前沿模型能力的风向标。

关键问题

测试用例误判

审计 138 条模型经常失利的任务后，超过 59% 的问题存在测试设计缺陷，其中 35.5% 为过窄测试——强制实现特定实现细节导致功能正确的提交被错误拒绝；18.8% 为过宽测试——测试检查了任务描述未涉及的额外功能。这些缺陷让分数难以反映真实能力。

训练数据泄漏

SWE‑bench 的题目来源于公开的 GitHub 仓库，几乎所有前沿模型在训练时都会接触到这些代码及其修复补丁。OpenAI 通过多模型对比发现，模型能够完整复现金补丁或精确记忆问题描述的比例极高，说明它们在训练阶段已经“见过”评估数据。进一步的红队实验表明，针对特定任务的提示可以诱导模型输出几乎原文的金补丁，验证了严重的污染风险。

数据泄漏的影响

由于模型对评估数据的记忆，SWE‑bench Verified 的分数增长更多反映了模型对基准的熟悉程度，而非真实的代码生成或调试能力。OpenAI 观察到，过去六个月的整体准确率仅从 74.9% 提升至 80.9%，进步幅度与模型规模提升不匹配，进一步印证了分数失真。

新评估方案：SWE‑bench Pro

为解决上述问题，OpenAI 推出了 SWE‑bench Pro。该基准在三方面做出改进：

全新任务集：所有任务均由内部专家全新撰写，未在公开代码库出现过，降低训练泄漏概率。
双层测试：采用严格的功能测试+行为一致性检查，确保实现细节不影响分数。
防泄漏机制：在数据发布前对任务进行加密并限制公开访问，仅对受信机构提供评估接口。

OpenAI 已停止在官方报告中公布 SWE‑bench Verified 的成绩，并强烈建议其他模型研发团队同步迁移。

行业影响

此举对整个生成式 AI 研发社区具有警示意义。随着模型规模突破数百亿参数，公开基准的污染风险将日益凸显，评估方法必须向 私有化、可审计 转变。未来，更多组织可能会采用类似 SWE‑bench Pro 的封闭评估流程，以确保竞争公平并真实捕捉技术进步。

“评估的可信度是推动前沿模型研发的基石，只有在数据安全和测试严谨性上做到位，才能真正衡量模型的实用价值。”——OpenAI 研究团队