OpenAI推出GPT‑5.3‑Codex，Anthropic发布Claude Opus 4.6，Goodfire获150亿美元融资推动模型可解释性

2026/02/08 (周日)•34 阅读•3分钟•前沿

OpenAIAnthropicClaude Opus 4.6GoodfireLayerLens

2026/02/08 (周日)•34 阅读•3分钟•前沿

OpenAI推出GPT‑5.3‑Codex，Anthropic发布Claude Opus 4.6，Goodfire获150亿美元融资推动模型可解释性

代理时代的竞争

本周，OpenAI 与 Anthropic 双双发布针对多步自主任务的旗舰模型，开启了大模型从对话向完整代理系统的转型。

OpenAI GPT‑5.3‑Codex：
- 首个在训练、调试、部署全流程中自我使用的模型；
- 支持跨天项目管理，可通过专属 CLI 实时调整行为并保持上下文；
- 目标用户为需要长期自主执行代码编写、调试的企业研发团队。
Anthropic Claude Opus 4.6：
- 引入 1,000,000 token 超长上下文，能够一次性读取完整代码库或法律文档；
- “自适应思考”协议让模型自行判断任务复杂度，动态分配推理资源；
- 主打企业级专业工作流，提升高风险任务的可靠性。

两款模型的核心共性在于 agentic 能力——不仅生成答案，更能自行规划、调用工具并在长链任务中保持一致性。行业观察人士认为，这标志着 AI 正从“能说会道”进入“能做事”的关键节点。

模型可解释性突破

Goodfire 本周完成 150 亿美元 B 轮融资，估值 1.25 万亿美元，正式进入独角兽行列。其核心平台 Ember 通过神经元映射和组件可视化，将大型语言模型的内部结构转化为可调试的软件模块。

关键成果：利用 Ember 逆向解析基础模型，发现了一类全新阿尔茨海默症生物标记，展示了可解释 AI 在自然科学中的直接应用价值。
业务定位：帮助研发团队在模型调优阶段精确定位幻觉来源，实现“可审计的生成”。

评估与责任新框架

随着代理模型的自主性提升，传统的静态评测已难以覆盖复杂的多步骤任务。LayerLens（联合创始人）推出的 agent‑as‑a‑judge 评估体系，首次实现对 50 步以上、涉及工具调用和数据库交互的完整轨迹进行自动审查。

评估机制：独立审查层解析推理链、执行日志以及产生的副作用；
应用场景：代码助手、企业级自动化流程以及任何需要高可信度的 AI 代理。

该框架被业界称为 “Evals 2.0”，为 AI 从实验室走向生产环境提供了必要的安全保障。

市场与融资概览

Goodfire：150 亿美元 B 轮，估值 1.25 万亿美元；
LayerLens：新评估功能上线，同步进行种子轮融资；
其他热点：Intel 宣布进军 GPU 市场挑战 NVIDIA；Oracle 发起 200‑250 亿美元 AI 云基建债券。

整体来看，模型能力的迅速升级与可解释、可评估技术的同步落地，正共同构筑 AI 进入可靠自治阶段的基石。企业在选型时需权衡 agentic 能力与安全合规成本，监管机构也将面临更具技术含量的审查任务。

“从‘AI 能说’到‘AI 能做’，我们正站在可信代理的起跑线。”——业内专家评论

未来数月，随着更多企业级代理产品落地，行业将进一步检验这些技术在实际业务场景中的可行性与安全性。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。