YuanLab推出Yuan 3.0 Ultra，实现千亿参数MoE模型参数削减33%并提升训练效率49%

模型概览

YuanLab AI在最新论文中公布了Yuan 3.0 Ultra，一款总参数为1T、激活参数仅68.8B的多专家（Mixture‑of‑Experts）大语言模型。相较于传统密集模型，MoE结构在保持容量的同时显著降低计算成本，适配企业级高效推理需求。

核心创新：层自适应专家剪枝（LAEP）

算法原理：在预训练阶段实时监测每层专家的 token 负载，依据两条约束进行剪枝：
- 单专家负载约束（α）：剔除低于层均值的专家。
- 累计负载约束（β）：以 β=0.1 为阈值，移除整体贡献最小的 10% 专家。
执行效果：模型参数从最初的 1.5T 剪枝至 1T，削减 33.3% 总参数量，却保持多域性能不降。激活专家数从每层 64 降至最高 48，显著降低显存占用。

硬件效率与专家重排

Yuan 3.0 Ultra 引入Expert Rearranging算法，对专家进行负载排序并采用贪心策略在 GPU 集群中均衡分配，令每块 GPU 的 token 方差最小化。实验数据显示，模型每 GPU 的 TFLOPS 达到 92.6，预训练效率提升 49%，其中模型剪枝贡献 32.4%，专家重排贡献 15.9%。

企业基准表现

在多项企业级基准测试中，Yuan 3.0 Ultra 超越 GPT‑5.2、Gemini 3.1 Pro 等竞争模型：

Docmatix 多模态 RAG：67.4%（对比 GPT‑5.2 48.4%）
ChatRAG 文本检索：68.2%（对比 Kimi K2.5 53.6%）
MMTab 表格推理：62.3%（接近 Kimi K2.5 66.2%）
SummEval 文本摘要：62.8%（领先 Claude Opus 4.6 的 49.9%）
Spider 1.0 文本‑SQL：83.9%（略高于 Kimi K2.5 82.7%）

业界意义与展望

Yuan 3.0 Ultra 通过LAEP与Expert Rearranging实现了“少参数·高效能”的新范式，为开源 MoE 大模型提供了可复制的技术路径。其在企业检索、长上下文推理以及工具调用等场景的领先表现，预示着下一代多模态基础模型将更聚焦算力成本与部署灵活性。未来，YuanLab 计划继续扩展专家库规模，并开放更多行业微调数据，以推动国产大模型在全球竞争格局中的影响力。

“在保持模型能力的前提下削减三分之一参数，是我们对高效 AI 研发的核心使命。”——YuanLab AI 项目负责人

YuanLab推出Yuan 3.0 Ultra，实现千亿参数MoE模型参数削减33%并提升训练效率49%