DeepMind推出Aletheia数学代理，实现全自主科研突破

关键发布

Google DeepMind今日在公开论文《Aletheia: An Autonomous Math Research Agent》中正式推出数学研究AI代理Aletheia。该系统旨在弥合国际数学奥林匹克（IMO）竞赛水平与学术前沿研究之间的差距，能够在自然语言环境下循环生成、验证并修正数学证明。

架构与技术亮点

Agentic Loop：Aletheia 采用生成器‑验证器‑修正器三模块协同工作。生成器提出候选解答，验证器使用自然语言检查潜在错误，修正器根据反馈迭代改进直至通过。
底层模型：基于 Gemini Deep Think 的升级版，支持更深层次的推理与长时记忆。
推理时扩展：通过在推理阶段分配额外算力，实现“思考更久”，显著提升复杂证明的成功率。
工具使用：内置 Google Search 与网页浏览功能，主动检索最新文献，防止引用幻觉。

绩效表现

在 IMO‑Proof Bench Advanced 上取得 95.1% 的准确率，远超去年 65.7% 的记录。
同时在内部 PhD 级别基准 FutureMath Basic 中刷新了最强表现。
推理算力需求下降 100 倍，得益于 2026 年 1 月发布的 Deep Think 版本。

真实科研里程碑

项目	贡献方式	结果
Fully Autonomous (Feng26)	完全自主生成论文，计算结构常数 eigenweights	论文已在 arXiv 上公开，质量达到可发表水平
Collaborative (LeeSeo26)	为独立集上界提供高层次路线图，帮助人类作者完成严谨证明	人类团队完成正式证明并提交期刊
Erdős Conjectures	针对 700 条开放问题进行搜索与求解	找到 63 条技术正确解答，成功解决 4 条未解题

自动化水平与分类标准

DeepMind 提出面向数学AI的自主度分层模型：

Level 0：人类主导，仅用于竞赛级别（如 IMO）。
Level 1：人机协作，产生轻度新颖性成果。
Level 2：基本自主，能够产出可发表的研究（如 Feng26）。

Aletheia 的 Level 2 表现证明了 AI 已可在特定数学子域实现近乎独立的科研产出。

行业影响

Aletheia 的出现为学术界提供了全新工具链，尤其在需要大量文献检索与复杂推理的领域（代数几何、组合数学）具有突破性意义。与此同时，模型对算力的高效利用与工具增强策略为后续生成式AI 的可信度提升指明了方向。业界普遍预计，随着类似系统的迭代，AI 将从“解题利器”转向“科研合作者”，加速基础科学的发现速度。

“AI 能够自行提出并验证数学证明，这标志着我们进入了真正的机器科研时代。”——DeepMind 研究负责人