Google发布Gemini 3 Deep Think，ARC‑AGI‑2得分84.6%逼近人类水平

关键突破

Google今日发布 Gemini 3 Deep Think，模型在 ARC‑AGI‑2 基准上取得 84.6% 的得分，超过人类约 60% 的平均水平，成为业界首个突破 80% 大关的通用推理模型。该模式通过延长测试时计算（test‑time compute），在生成答案前进行内部验证和自我纠错，从而显著降低幻觉风险。

内部验证机制：多步推理链路在生成前被循环检查；
可扩展算力：支持数十秒的持续思考，远超传统一次性前向传播；
跨模态能力：可将 2D 草图转化为可打印的 3D 模型文件。

竞赛编程表现

在 Codeforces 平台，Gemini 3 Deep Think 获得 3455 Elo，进入“传奇大师”行列，仅有极少数顶尖人类程序员能够达到。内部测试显示，其在软件工程任务上的准确率比前代提升约 35%。该成绩表明模型在算法设计、复杂数据结构以及时间复杂度优化方面具备接近人类专家的能力，适合作为高阶 Pair‑Programmer 使用。

科学奥赛成绩

模型在 2025 年国际物理、化学奥林匹克笔试以及国际数学奥林匹克笔试中均获得金牌水平成绩，并在 CMT‑Benchmark（高级理论物理）上取得 50.5% 的得分。对生物医药、材料科学等前沿科研领域的实验数据解读与建模也表现出专业级可靠性。

实际工程应用

从草图到实体：能够读取二维手绘图，生成对应的三维建模代码并输出 STL 文件，实现从概念到原型的快速闭环；
化学工艺优化：利用内部推理引擎为薄膜沉积等高难度配方搜索提供最优解；
多步骤决策：在缺乏完整数据的情境下，仍可通过逻辑链条完成法律、哲学等高层次推理任务。

业界意义

Gemini 3 Deep Think 的表现标志着大模型从“模式匹配”向“可验证推理”迈进，削弱了传统基准对记忆能力的依赖。随着算力成本的进一步下降，这类深度思考模式有望在科研助理、自动化设计以及高端软件开发等高价值场景中实现规模化落地，推动生成式 AI 向真正的通用人工智能（AGI）靠拢。