YuanLab推出Yuan 3.0 Ultra,实现千亿参数MoE模型参数削减33%并提升训练效率49%
•0 阅读•3分钟•前沿
LLMMoEYuanLabYuan 3.0 Ultra
•0 阅读•3分钟•前沿

模型概览
YuanLab AI在最新论文中公布了Yuan 3.0 Ultra,一款总参数为1T、激活参数仅68.8B的多专家(Mixture‑of‑Experts)大语言模型。相较于传统密集模型,MoE结构在保持容量的同时显著降低计算成本,适配企业级高效推理需求。
核心创新:层自适应专家剪枝(LAEP)
- 算法原理:在预训练阶段实时监测每层专家的 token 负载,依据两条约束进行剪枝:
- 单专家负载约束(α):剔除低于层均值的专家。
- 累计负载约束(β):以 β=0.1 为阈值,移除整体贡献最小的 10% 专家。
- 执行效果:模型参数从最初的 1.5T 剪枝至 1T,削减 33.3% 总参数量,却保持多域性能不降。激活专家数从每层 64 降至最高 48,显著降低显存占用。
硬件效率与专家重排
Yuan 3.0 Ultra 引入Expert Rearranging算法,对专家进行负载排序并采用贪心策略在 GPU 集群中均衡分配,令每块 GPU 的 token 方差最小化。实验数据显示,模型每 GPU 的 TFLOPS 达到 92.6,预训练效率提升 49%,其中模型剪枝贡献 32.4%,专家重排贡献 15.9%。
企业基准表现
在多项企业级基准测试中,Yuan 3.0 Ultra 超越 GPT‑5.2、Gemini 3.1 Pro 等竞争模型:
- Docmatix 多模态 RAG:67.4%(对比 GPT‑5.2 48.4%)
- ChatRAG 文本检索:68.2%(对比 Kimi K2.5 53.6%)
- MMTab 表格推理:62.3%(接近 Kimi K2.5 66.2%)
- SummEval 文本摘要:62.8%(领先 Claude Opus 4.6 的 49.9%)
- Spider 1.0 文本‑SQL:83.9%(略高于 Kimi K2.5 82.7%)
业界意义与展望
Yuan 3.0 Ultra 通过LAEP与Expert Rearranging实现了“少参数·高效能”的新范式,为开源 MoE 大模型提供了可复制的技术路径。其在企业检索、长上下文推理以及工具调用等场景的领先表现,预示着下一代多模态基础模型将更聚焦算力成本与部署灵活性。未来,YuanLab 计划继续扩展专家库规模,并开放更多行业微调数据,以推动国产大模型在全球竞争格局中的影响力。
“在保持模型能力的前提下削减三分之一参数,是我们对高效 AI 研发的核心使命。”——YuanLab AI 项目负责人
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。