Anthropic获30亿美元融资、DeepMind发布Aletheia数学研究代理，AI进入专业科研新阶段

2026/02/15 (周日)•33 阅读•5分钟•前沿

ClaudeAnthropicDeepMindAletheiaGLM-5

2026/02/15 (周日)•33 阅读•5分钟•前沿

Anthropic获30亿美元融资、DeepMind发布Aletheia数学研究代理，AI进入专业科研新阶段

重大融资与产业布局

Anthropic完成30亿美元Series G融资，后估值3800亿美元，领投方包括GIC和Coatue。此轮资金将用于前沿模型研发和算力基础设施扩容。公司称Claude Code已实现25亿美元年化收入，并拥有500+企业客户，每家年支出超过100万美元。
Cohere报告2025年收入目标已达成，跑到2.4亿美元跑道，准备在2026年进行IPO。
Modal Labs估值升至25亿美元，正在筹集新一轮资本。
Runway再获3.15亿美元融资，估值53亿美元，加速“世界模型”视频生成技术商业化。
Tencent因AI进展不及预期，市值跌1730亿美元，凸显国内企业在算力与模型竞争中的压力。

模型发布与性能突破

OpenAI推出GPT‑5.3‑Codex及其超高速变体GPT‑5.3‑Codex‑Spark，后者在Cerebras Wafer‑Scale Engine 3上实现**>1000 token/s的推理速度。Codex系列首次实现自我调试**：模型在训练期间自动生成并合并Pull Request，全部代码审查由AI完成。
Zhipu AI发布GLM‑5（744B 参数 MoE），活跃参数40B，全程在华为 Ascend芯片上训练，采用MIT许可证。GLM‑5在SWE‑Bench Verified上取得77.8%，与Google Gemini 3 Pro和Claude Opus 4.5相当。
MiniMax推出M2.5（230B 参数 MoE，活跃参数10B），在SWE‑Bench Verified上刷新**80.2%**记录，以极低成本提供高吞吐，定位金融、法律等高价值专业任务。

DeepMind Aletheia：数学研究代理的突破

DeepMind在本周的技术博客中公布了Aletheia系统，基于升级版Gemini Deep Think，采用Generator‑Verifier‑Reviser三阶段架构，实现了对自身生成内容的自然语言验证与纠错。关键成果包括：

在IMO‑Proof Bench上取得**95.1%的准确率，首次在公开基准上突破90%**大关。
自动生成题为《eigenweights in arithmetic geometry》的研究论文，并在Erdős Conjectures数据库中解决4个长期未解的子问题。
DeepMind提出Autonomous Mathematics Research Level分类，标注Aletheia已达Level 2（Publication Grade），但仍未触及Level 4（突破性）。

“AI正从‘增强工具’转向‘科研伙伴’，但仍需在创新深度上追赶人类顶尖。” —— DeepMind 研究团队

业界其他动态

Voxtral Realtime（Mistral）实现480 ms端到端语音识别延迟，性能媲美离线模型Whisper，并以Apache 2.0开源。
GAIA2（Meta）评测显示，即使是GPT‑5也在动态、异步环境中仅达**42%**成功率，突显时间感知与协同推理仍是瓶颈。
多项安全与评估工作发布，包括How2Score（AI2）用于步骤生成评估、CausalArmor（Google Cloud）防止间接提示注入、以及AgenticPay（UC Berkeley）对多轮经济谈判的基准测试。

整体来看，资本的大幅注入与模型性能的持续提升正加速AI向专业化、自治化方向演进。尤其是DeepMind的Aletheia，标志着生成式模型首次在数学科研层面实现接近人类专家的表现，预示着AI在科学发现中的角色将进一步深化。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。