Anthropic获30亿美元融资、DeepMind发布Aletheia数学研究代理,AI进入专业科研新阶段
•33 阅读•5分钟•前沿
ClaudeAnthropicDeepMindAletheiaGLM-5
•33 阅读•5分钟•前沿

重大融资与产业布局
- Anthropic完成30亿美元Series G融资,后估值3800亿美元,领投方包括GIC和Coatue。此轮资金将用于前沿模型研发和算力基础设施扩容。公司称Claude Code已实现25亿美元年化收入,并拥有500+企业客户,每家年支出超过100万美元。
- Cohere报告2025年收入目标已达成,跑到2.4亿美元跑道,准备在2026年进行IPO。
- Modal Labs估值升至25亿美元,正在筹集新一轮资本。
- Runway再获3.15亿美元融资,估值53亿美元,加速“世界模型”视频生成技术商业化。
- Tencent因AI进展不及预期,市值跌1730亿美元,凸显国内企业在算力与模型竞争中的压力。
模型发布与性能突破
- OpenAI推出GPT‑5.3‑Codex及其超高速变体GPT‑5.3‑Codex‑Spark,后者在Cerebras Wafer‑Scale Engine 3上实现**>1000 token/s的推理速度。Codex系列首次实现自我调试**:模型在训练期间自动生成并合并Pull Request,全部代码审查由AI完成。
- Zhipu AI发布GLM‑5(744B 参数 MoE),活跃参数40B,全程在华为 Ascend芯片上训练,采用MIT许可证。GLM‑5在SWE‑Bench Verified上取得77.8%,与Google Gemini 3 Pro和Claude Opus 4.5相当。
- MiniMax推出M2.5(230B 参数 MoE,活跃参数10B),在SWE‑Bench Verified上刷新**80.2%**记录,以极低成本提供高吞吐,定位金融、法律等高价值专业任务。
DeepMind Aletheia:数学研究代理的突破
DeepMind在本周的技术博客中公布了Aletheia系统,基于升级版Gemini Deep Think,采用Generator‑Verifier‑Reviser三阶段架构,实现了对自身生成内容的自然语言验证与纠错。关键成果包括:
- 在IMO‑Proof Bench上取得**95.1%的准确率,首次在公开基准上突破90%**大关。
- 自动生成题为《eigenweights in arithmetic geometry》的研究论文,并在Erdős Conjectures数据库中解决4个长期未解的子问题。
- DeepMind提出Autonomous Mathematics Research Level分类,标注Aletheia已达Level 2(Publication Grade),但仍未触及Level 4(突破性)。
“AI正从‘增强工具’转向‘科研伙伴’,但仍需在创新深度上追赶人类顶尖。” —— DeepMind 研究团队
业界其他动态
- Voxtral Realtime(Mistral)实现480 ms端到端语音识别延迟,性能媲美离线模型Whisper,并以Apache 2.0开源。
- GAIA2(Meta)评测显示,即使是GPT‑5也在动态、异步环境中仅达**42%**成功率,突显时间感知与协同推理仍是瓶颈。
- 多项安全与评估工作发布,包括How2Score(AI2)用于步骤生成评估、CausalArmor(Google Cloud)防止间接提示注入、以及AgenticPay(UC Berkeley)对多轮经济谈判的基准测试。
整体来看,资本的大幅注入与模型性能的持续提升正加速AI向专业化、自治化方向演进。尤其是DeepMind的Aletheia,标志着生成式模型首次在数学科研层面实现接近人类专家的表现,预示着AI在科学发现中的角色将进一步深化。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。