Google发布Aletheia数学代理在FirstProof挑战赛中解答6题创纪录

背景概述

FirstProof是由学术界组织的数学证明基准，包含若干高难度的定理推导任务，常用于评估模型的形式化推理能力。过去几年，OpenAI的GPT‑4、DeepMind的AlphaCode等模型在该赛道上只能解决少数简单题目，整体通过率不足30%。

Aletheia是谷歌DeepMind最新研发的数学推理模型，核心采用多模态Transformer结构，并在大规模数学文本与交互式证明数据上进行强化学习微调。模型的关键创新包括：

在本次FirstProof竞赛中，Google团队遵守比赛规则，提前将Aletheia的答案提交给组织方，并在官方公布答案前同步至GitHub（项目链接）。最终，Aletheia在10道测试题中成功解答6道，正确率达到60%，显著超出此前公开模型的最高记录（约35%）。

突破数学推理瓶颈：Aletheia的成功展示了大模型在严谨数学推理上的可行路径，为自动化定理证明、科学计算等高价值场景奠定基础。
开放透明的科研姿态：Google选择在GitHub完整公开所有提示、模型输出以及评估脚本，促进社区复现与后续改进，符合AI安全与可验证性的行业最佳实践。
推动基准升级：随着模型表现提升，FirstProof等传统基准将面临重新设定难度的压力，未来可能出现更高阶的数学推理挑战赛。

Aletheia目前仍在持续迭代，团队计划在下一个版本中加入更深层次的符号层级和跨学科知识（如物理、化学方程求解），以实现更广泛的科学推理能力。此外，Google正探索将Aletheia嵌入教育平台，为学生提供交互式数学辅导。

“我们希望通过开放的方式，让整个研究社区共同推动数学 AI 的边界。” – Google DeepMind 负责人（GitHub提交说明）

Google的Aletheia在FirstProof赛场上以6/10的成绩刷新了数学推理模型的纪录，标志着生成式大模型在高阶逻辑任务上的可行性提升。随着技术迭代与基准升级，AI在科学研究中的角色有望进一步深化。