OpenAI公布First Proof数学挑战成果,模型在五道难题上取得突破

背景概述
First Proof是一项面向研究级数学推理的挑战,旨在检验AI系统能否在特定学科中给出可检查的完整证明。不同于传统的选择题或竞赛式短答,这类题目要求模型自行构建论证链、选择恰当抽象并在缺乏明确答案的情况下保持严谨。
OpenAI的实验设计
OpenAI于2026年2月14日零时(太平洋时间)公开了其内部模型在全部十道First Proof题目上的尝试。实验采用了最新的GPT‑5.2模型,并在有限的人类监督下进行多轮交互:
- 提示策略:在训练过程中,研究团队不断迭代提示模板,加入了成功案例的结构化模式。
- 人机协同:模型生成初稿后,研究员会要求其扩展或澄清关键步骤,并让ChatGPT辅助校对格式与表述。
- 筛选机制:每道题目保留多次尝试中的最佳版本,最终由领域专家进行可信度评估。
关键结果
经专家反馈,以下五道题目被认为高概率正确:
- 第4题(代数几何)
- 第5题(拓扑学)
- 第6题(数论)
- 第9题(组合优化)
- 第10题(微分方程)
原本对第2题持乐观态度,但在官方评论及社区复盘后确认其结论有误。其余题目仍在进一步审查中。
技术意义
这一次的提交凸显了大模型在持续长时段推理和自信度保持方面的显著提升。James R. Lee(OpenAI Reasoning团队)指出,模型在两天内从解决第9、10题逐步扩展到第4、5、6题,表明其在熟悉领域的学习效率显著提升。
与此同时,OpenAI提到正在训练下一代模型,目标是让模型能够连续思考数小时而不出现置信度下降,这将为未来的科研助理提供更可靠的逻辑支撑。
与以往成果的关系
OpenAI此前已在2025年7月的国际数学奥林匹克(IMO)上取得35/42的高分,并在2025年11月发布了《加速科学的早期实验》,展示了GPT‑5在数学、物理、生物等领域的实际应用。最近的GPT‑5.2在理论物理中提出的胶子振幅公式也已被内部模型正式证明,进一步验证了模型在前沿科研中的潜力。
展望与社区合作
OpenAI呼吁First Proof组织者以及更广泛的学术社区共同制定更严格的评估框架,以便在未来的挑战中获得更客观的性能度量。完整的证明稿件及附录(包含提示模式与交互示例)已在博客链接中公开,供研究者复现与批评。
结语:此次First Proof提交标志着生成式大模型在专业数学推理上的一次重要里程碑,预示着AI在科研助理、自动化证明乃至新理论发现方面的广阔前景。