YuanLab推出Yuan 3.0 Ultra,实现千亿参数MoE模型参数削减33%并提升训练效率49%

0 阅读3分钟前沿
YuanLab推出Yuan 3.0 Ultra,实现千亿参数MoE模型参数削减33%并提升训练效率49%

模型概览

YuanLab AI在最新论文中公布了Yuan 3.0 Ultra,一款总参数为1T、激活参数仅68.8B的多专家(Mixture‑of‑Experts)大语言模型。相较于传统密集模型,MoE结构在保持容量的同时显著降低计算成本,适配企业级高效推理需求。

核心创新:层自适应专家剪枝(LAEP)

  • 算法原理:在预训练阶段实时监测每层专家的 token 负载,依据两条约束进行剪枝:
    • 单专家负载约束(α):剔除低于层均值的专家。
    • 累计负载约束(β):以 β=0.1 为阈值,移除整体贡献最小的 10% 专家。
  • 执行效果:模型参数从最初的 1.5T 剪枝至 1T,削减 33.3% 总参数量,却保持多域性能不降。激活专家数从每层 64 降至最高 48,显著降低显存占用。

硬件效率与专家重排

Yuan 3.0 Ultra 引入Expert Rearranging算法,对专家进行负载排序并采用贪心策略在 GPU 集群中均衡分配,令每块 GPU 的 token 方差最小化。实验数据显示,模型每 GPU 的 TFLOPS 达到 92.6,预训练效率提升 49%,其中模型剪枝贡献 32.4%,专家重排贡献 15.9%。

企业基准表现

在多项企业级基准测试中,Yuan 3.0 Ultra 超越 GPT‑5.2、Gemini 3.1 Pro 等竞争模型:

  • Docmatix 多模态 RAG:67.4%(对比 GPT‑5.2 48.4%)
  • ChatRAG 文本检索:68.2%(对比 Kimi K2.5 53.6%)
  • MMTab 表格推理:62.3%(接近 Kimi K2.5 66.2%)
  • SummEval 文本摘要:62.8%(领先 Claude Opus 4.6 的 49.9%)
  • Spider 1.0 文本‑SQL:83.9%(略高于 Kimi K2.5 82.7%)

业界意义与展望

Yuan 3.0 Ultra 通过LAEPExpert Rearranging实现了“少参数·高效能”的新范式,为开源 MoE 大模型提供了可复制的技术路径。其在企业检索、长上下文推理以及工具调用等场景的领先表现,预示着下一代多模态基础模型将更聚焦算力成本与部署灵活性。未来,YuanLab 计划继续扩展专家库规模,并开放更多行业微调数据,以推动国产大模型在全球竞争格局中的影响力。

“在保持模型能力的前提下削减三分之一参数,是我们对高效 AI 研发的核心使命。”——YuanLab AI 项目负责人

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。