CAISI评测称开放模型激增,国产与美企差距进一步拉大
•37 阅读•4分钟•前沿
GoogleGemmaDeepSeek月之暗面小米
Florian Brand••37 阅读•4分钟•前沿

背景概述
2026 年 5 月,多个开源前沿实验室在短短一个月内陆续推出新模型,包括 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM‑5.1 等。针对这些模型,AI 标准创新中心(CAISI)发布了最新的 V4 评测报告,试图量化开放模型与闭源模型的能力差距。
主要模型发布
- Gemma 4(Google):提供 4B、9B、31B 三种密集规格以及 26B‑A4B MoE,采用 Apache 2.0 许可证,消除了许可证歧义。
- DeepSeek V4:分为 Pro(1.6T‑A49B MoE)和 Flash(284B‑13B)两款,Flash 在长上下文性能上表现突出。
- Kimi K2.6(月之暗面):提升整体基准分数,强调长时任务持续运行能力。
- MiMo 2.5 Pro(小米):在 Apache 2.0 许可下发布,性能已接近 Kimi K2.6 与 GLM‑5.1。
- GLM‑5.1(zai‑org):针对长时任务进行微调,整体分数全面提升。
CAISI 评测方法与核心结果
CAISI 采用基于 Item Response Theory(IRT) 的 Elo 评分体系,对九个公开或私有基准进行统一评估,包括 CTF‑Archive‑Diamond、PortBench、ARC‑AGI‑2 等。评测显示:
- 整体 Elo 差距:开放模型整体分数落后于美国闭源模型 3‑7 个月的能力水平。
- 关键失分点:DeepSeek V4 在 CTF‑Archive‑Diamond、PortBench 与 ARC‑AGI‑2 三项上表现尤为薄弱,导致整体 Elo 拉低。
- 与 ECI 对比:使用 Epoch AI 的 ECI(同样基于 IRT)得出相似结论,开放与闭源的差距基本保持在 3‑7 个月区间。
“开放模型的评测往往受限于标准化的基准设置,真实能力可能被低估或高估。”——CAISI 报告摘录
评测局限与行业观点
CAISI 与 ECI 均采用 统一的基准设置,但在实际使用场景中存在以下缺口:
- 编码基准 仅使用 Bash 循环和固定 token 预算,未采用 Claude Code、OpenCode 等专门的代码评测框架,导致对模型的代码迁移能力评估偏低。
- 提示工程差异:不同模型在最佳提示方式上存在差异,统一的提示可能无法充分激发模型潜能。
- 硬件与算力差异:开放模型往往在本地部署条件下受限于算力,评测未能完全反映其在高算力云端的表现。
在 Interconnects 的内部讨论中,Florian Brand 认为开放模型与闭源模型的真实性能差距可能被低估,而 Nathan Lambert 则持相反观点,认为闭源模型仍保持显著领先。
未来展望
- 基准多样化:业界呼吁引入更贴近实际开发的基准,如使用专业代码评测套件、长期任务仿真等。
- 开放模型生态:随着 Apache 2.0 许可证的推广(如 Gemma 4、MiMo 2.5 Pro),开源模型的法律风险将进一步降低,生态活跃度有望提升。
- 跨模型协同:在长时任务和复杂推理场景下,开放模型的组合使用(ensemble)或与闭源模型的互补将成为新趋势。
总体来看,尽管本轮开源模型在规模和功能上实现了快速迭代,但在与美国闭源旗舰模型的综合能力比较中仍有显著差距。行业需要更精细的评测体系和更强的算力支持,才能真正缩小这一鸿沟。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。