Google DeepMind推出Decoupled DiLoCo实现跨地区弹性分布式训练,效率提升逾20倍

15 阅读3分钟前沿
Google DeepMind推出Decoupled DiLoCo实现跨地区弹性分布式训练,效率提升逾20倍

背景与挑战

随着大模型参数规模突破千亿级,传统的同步训练方式要求所有芯片保持近乎完美的时钟同步。跨地域数据中心的带宽限制和硬件故障率使得这种模式在全球规模上难以持续。Google DeepMind 团队因此提出一种全新思路:将训练任务划分为若干相互独立的“岛屿”(learner units),通过异步数据流实现松耦合训练。

Decoupled DiLoCo 架构概览

  • 分布式低通信 (Distributed Low‑Communication):在 Pathways 的异步数据流基础上,进一步压缩跨站点通信,仅在必要的梯度聚合阶段传输少量信息。
  • 岛屿化计算单元:每个 island 由若干 TPU(v6e 或 v5p)组成,彼此独立运行,硬件故障只影响所在 island,其他 island 继续训练。
  • 自愈机制:系统通过“混沌工程”模拟硬件失效,一旦检测到 island 掉线,自动将其从全局调度中剔除,待硬件恢复后再无缝并入。
  • 带宽需求量级下降:实验表明,相比传统数据并行,需要的跨地域带宽从 TB 级下降到 Gbps 级,使用现有互联网骨干即可支撑。

实验与性能评估

  • 模型:Gemma‑4(12B 参数)在四个美国区域分布的 2‑5 Gbps 网络上完成预训练。
  • 容错表现:在注入 10% 至 30% 硬件失效的极端场景下,Decoupled DiLoCo 仍保持超过 85% 的有效训练率(goodput),而传统同步方法的有效率骤降至 40% 以下。
  • 训练速度:整体训练时间比基线同步方案快 20.3 倍,主要得益于将通信阻塞嵌入计算周期的设计。
  • 跨代硬件兼容:混合使用 TPU v6e 与 TPU v5p,最终模型精度与全同代硬件训练的结果基本持平,验证了不同代硬件共训练的可行性。

行业意义

  1. 算力利用率提升:闲置的旧代 TPU 也能被调度进训练任务,延长硬件生命周期,降低资本支出。
  2. 全球化训练成为可能:无需专门建设跨洲专用光纤,普通互联网即可支撑大模型预训练,降低了进入门槛。
  3. 容错能力:大规模数据中心的硬件故障不再是单点瓶颈,为企业级 AI 平台提供更可靠的服务保障。

展望

Google 表示,Decoupled DiLoCo 只是全栈 AI 训练基础设施演进的第一步,后续将结合自适应调度、混合精度训练以及更细粒度的资源调度算法,进一步压缩训练成本并加速模型迭代。随着模型规模继续指数增长,这类弹性分布式系统有望成为行业新标配。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。