CAISI评测称开放模型激增，国产与美企差距进一步拉大

2026/05/17 (周日)•37 阅读•4分钟•前沿

GoogleGemmaDeepSeek月之暗面小米

Florian Brand•2026/05/17 (周日)•37 阅读•4分钟•前沿

CAISI评测称开放模型激增，国产与美企差距进一步拉大

背景概述

2026 年 5 月，多个开源前沿实验室在短短一个月内陆续推出新模型，包括 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM‑5.1 等。针对这些模型，AI 标准创新中心（CAISI）发布了最新的 V4 评测报告，试图量化开放模型与闭源模型的能力差距。

主要模型发布

Gemma 4（Google）：提供 4B、9B、31B 三种密集规格以及 26B‑A4B MoE，采用 Apache 2.0 许可证，消除了许可证歧义。
DeepSeek V4：分为 Pro（1.6T‑A49B MoE）和 Flash（284B‑13B）两款，Flash 在长上下文性能上表现突出。
Kimi K2.6（月之暗面）：提升整体基准分数，强调长时任务持续运行能力。
MiMo 2.5 Pro（小米）：在 Apache 2.0 许可下发布，性能已接近 Kimi K2.6 与 GLM‑5.1。
GLM‑5.1（zai‑org）：针对长时任务进行微调，整体分数全面提升。

CAISI 评测方法与核心结果

CAISI 采用基于 Item Response Theory（IRT） 的 Elo 评分体系，对九个公开或私有基准进行统一评估，包括 CTF‑Archive‑Diamond、PortBench、ARC‑AGI‑2 等。评测显示：

整体 Elo 差距：开放模型整体分数落后于美国闭源模型 3‑7 个月的能力水平。
关键失分点：DeepSeek V4 在 CTF‑Archive‑Diamond、PortBench 与 ARC‑AGI‑2 三项上表现尤为薄弱，导致整体 Elo 拉低。
与 ECI 对比：使用 Epoch AI 的 ECI（同样基于 IRT）得出相似结论，开放与闭源的差距基本保持在 3‑7 个月区间。

“开放模型的评测往往受限于标准化的基准设置，真实能力可能被低估或高估。”——CAISI 报告摘录

评测局限与行业观点

CAISI 与 ECI 均采用 统一的基准设置，但在实际使用场景中存在以下缺口：

编码基准 仅使用 Bash 循环和固定 token 预算，未采用 Claude Code、OpenCode 等专门的代码评测框架，导致对模型的代码迁移能力评估偏低。
提示工程差异：不同模型在最佳提示方式上存在差异，统一的提示可能无法充分激发模型潜能。
硬件与算力差异：开放模型往往在本地部署条件下受限于算力，评测未能完全反映其在高算力云端的表现。

在 Interconnects 的内部讨论中，Florian Brand 认为开放模型与闭源模型的真实性能差距可能被低估，而 Nathan Lambert 则持相反观点，认为闭源模型仍保持显著领先。

未来展望

基准多样化：业界呼吁引入更贴近实际开发的基准，如使用专业代码评测套件、长期任务仿真等。
开放模型生态：随着 Apache 2.0 许可证的推广（如 Gemma 4、MiMo 2.5 Pro），开源模型的法律风险将进一步降低，生态活跃度有望提升。
跨模型协同：在长时任务和复杂推理场景下，开放模型的组合使用（ensemble）或与闭源模型的互补将成为新趋势。

总体来看，尽管本轮开源模型在规模和功能上实现了快速迭代，但在与美国闭源旗舰模型的综合能力比较中仍有显著差距。行业需要更精细的评测体系和更强的算力支持，才能真正缩小这一鸿沟。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。