中国开源AI生态升级，MoE成主流，国产芯片驱动全栈创新

背景概述

2025年1月的 DeepSeek R1 触发了中国开源大模型的第一波热潮。随后一年，社区的关注点从单一模型权重转向 架构、硬件和系统化交付，形成了以可持续算力、灵活部署为核心的全新竞争路径。

MoE 成为默认架构

主流模型：Kimi K2、MiniMax M2、Qwen 3 等均采用 Mixture‑of‑Experts（MoE）结构。
优势解释：MoE 通过动态激活不同专家，实现 按需算力分配，既降低了推理成本，又兼容多样化硬件环境。
行业共识：在算力受限、成本敏感的中国市场，MoE 被视为兼顾 性能与成本 的最佳平衡点。

多模态竞争加速

自 2025 年 2 月起，开源项目快速向 Any‑to‑Any、文本‑图像、文本‑视频、语音合成、3D 与 Agent 等方向扩展。

StepFun 推出高性能多模态模型，尤其是 Step‑Audio‑R1.1 在语音合成上超越多家商业闭源方案。
腾讯发布 混元 Video 与 混元 3D，标志着巨头也在布局非文本生成领域。
生态链同步提供 数据集、评估基准、工具链，形成可复用的系统能力。

小模型崛起

0.5B‑30B 规模的模型因 本地部署、微调成本低，成为企业落地首选。

Qwen 1.5‑0.5B 派生模型数量最多，满足了合规与算力受限场景。
大型 MoE 模型（100B‑700B）被用于 教师模型，随后通过蒸馏生成大量小模型，形成 “少数大模型 + 多数小模型” 的金字塔结构。

许可证趋向宽松

DeepSeek 之后，Apache 2.0 成为多数开源模型的默认许可证。

宽松授权降低了 二次开发、商业化部署 的法律成本。
相比专属许可证，Apache 2.0 与 MIT 的熟悉度提升了模型在企业级系统中的采纳速度。

从模型优先到硬件优先的全栈转型

2025 年起，模型发布同步提供 推理框架、量化格式、边缘运行时，目标是 “下载即可跑”。

DeepSeek‑V3.2‑Exp 首发即支持华为 Ascend 与寒武芯 Cambricon，实现 Day‑Zero 运行。
蚂蚁集团 的 Ling 系列在国产 AI 芯片上实现近 NVIDIA H800 性能，训练成本下降约 20%。
百度公开使用 昆仑 P800 超 5,000 卡集群训练 Qianfan‑VL，并提供完整并行化细节。
2026 年初，智谱 AI 的 GLM‑Image 与 中国电信 的 TeleChat 3 均宣称全程在国产芯片上完成训练。
在服务层面，月之暗面 开源的 Mooncake 推理系统实现 prefill/decoding 分离，提升大批量推理效率。

结语

从 DeepSeek 引发的模型浪潮到如今的 系统化、硬件协同，中国开源 AI 正在从“模型输出”向“全栈交付”转型。面对美国芯片出口限制和算力紧张的外部环境，国产芯片、MoE 架构以及宽松许可证共同构筑了 可持续、可复制 的生态底层。下一篇将进一步探讨组织层面的竞争格局以及 2026 年的预测走向。