OpenAI公布First Proof数学挑战成果，模型在五道难题上取得突破

背景概述

First Proof是一项面向研究级数学推理的挑战，旨在检验AI系统能否在特定学科中给出可检查的完整证明。不同于传统的选择题或竞赛式短答，这类题目要求模型自行构建论证链、选择恰当抽象并在缺乏明确答案的情况下保持严谨。

OpenAI于2026年2月14日零时（太平洋时间）公开了其内部模型在全部十道First Proof题目上的尝试。实验采用了最新的GPT‑5.2模型，并在有限的人类监督下进行多轮交互：

经专家反馈，以下五道题目被认为高概率正确：

原本对第2题持乐观态度，但在官方评论及社区复盘后确认其结论有误。其余题目仍在进一步审查中。

这一次的提交凸显了大模型在持续长时段推理和自信度保持方面的显著提升。James R. Lee（OpenAI Reasoning团队）指出，模型在两天内从解决第9、10题逐步扩展到第4、5、6题，表明其在熟悉领域的学习效率显著提升。

与此同时，OpenAI提到正在训练下一代模型，目标是让模型能够连续思考数小时而不出现置信度下降，这将为未来的科研助理提供更可靠的逻辑支撑。

OpenAI此前已在2025年7月的国际数学奥林匹克（IMO）上取得35/42的高分，并在2025年11月发布了《加速科学的早期实验》，展示了GPT‑5在数学、物理、生物等领域的实际应用。最近的GPT‑5.2在理论物理中提出的胶子振幅公式也已被内部模型正式证明，进一步验证了模型在前沿科研中的潜力。

OpenAI呼吁First Proof组织者以及更广泛的学术社区共同制定更严格的评估框架，以便在未来的挑战中获得更客观的性能度量。完整的证明稿件及附录（包含提示模式与交互示例）已在博客链接中公开，供研究者复现与批评。

结语：此次First Proof提交标志着生成式大模型在专业数学推理上的一次重要里程碑，预示着AI在科研助理、自动化证明乃至新理论发现方面的广阔前景。