DeepMind推出Aletheia数学代理,实现全自主科研突破

1 阅读3分钟前沿
DeepMind推出Aletheia数学代理,实现全自主科研突破

关键发布

Google DeepMind今日在公开论文《Aletheia: An Autonomous Math Research Agent》中正式推出数学研究AI代理Aletheia。该系统旨在弥合国际数学奥林匹克(IMO)竞赛水平与学术前沿研究之间的差距,能够在自然语言环境下循环生成、验证并修正数学证明。

架构与技术亮点

  • Agentic Loop:Aletheia 采用生成器‑验证器‑修正器三模块协同工作。生成器提出候选解答,验证器使用自然语言检查潜在错误,修正器根据反馈迭代改进直至通过。
  • 底层模型:基于 Gemini Deep Think 的升级版,支持更深层次的推理与长时记忆。
  • 推理时扩展:通过在推理阶段分配额外算力,实现“思考更久”,显著提升复杂证明的成功率。
  • 工具使用:内置 Google Search 与网页浏览功能,主动检索最新文献,防止引用幻觉。

绩效表现

  • IMO‑Proof Bench Advanced 上取得 95.1% 的准确率,远超去年 65.7% 的记录。
  • 同时在内部 PhD 级别基准 FutureMath Basic 中刷新了最强表现。
  • 推理算力需求下降 100 倍,得益于 2026 年 1 月发布的 Deep Think 版本。

真实科研里程碑

项目贡献方式结果
Fully Autonomous (Feng26)完全自主生成论文,计算结构常数 eigenweights论文已在 arXiv 上公开,质量达到可发表水平
Collaborative (LeeSeo26)为独立集上界提供高层次路线图,帮助人类作者完成严谨证明人类团队完成正式证明并提交期刊
Erdős Conjectures针对 700 条开放问题进行搜索与求解找到 63 条技术正确解答,成功解决 4 条未解题

自动化水平与分类标准

DeepMind 提出面向数学AI的自主度分层模型:

  • Level 0:人类主导,仅用于竞赛级别(如 IMO)。
  • Level 1:人机协作,产生轻度新颖性成果。
  • Level 2:基本自主,能够产出可发表的研究(如 Feng26)。

Aletheia 的 Level 2 表现证明了 AI 已可在特定数学子域实现近乎独立的科研产出。

行业影响

Aletheia 的出现为学术界提供了全新工具链,尤其在需要大量文献检索与复杂推理的领域(代数几何、组合数学)具有突破性意义。与此同时,模型对算力的高效利用与工具增强策略为后续生成式AI 的可信度提升指明了方向。业界普遍预计,随着类似系统的迭代,AI 将从“解题利器”转向“科研合作者”,加速基础科学的发现速度。

“AI 能够自行提出并验证数学证明,这标志着我们进入了真正的机器科研时代。”——DeepMind 研究负责人

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。