OpenAI发布MRC协议让百千GPU训练网络实现微秒级容错与两层交换
•27 阅读•4分钟•前沿
OpenAINVIDIAAMDMRC
•27 阅读•4分钟•前沿
背景
在训练前沿大模型时,GPU算力已不再是唯一瓶颈,网络延迟与拥塞同样会导致成千上万的GPU闲置。OpenAI 通过两年研发,与业界领军硬件厂商合作,推出了 MRC(Multipath Reliable Connection)协议,并在 Open Compute Project(OCP)上开源,旨在把网络可靠性和可预测性提升到与算力同等重要的层级。
MRC核心机制
MRC 基于 RoCE(RDMA over Converged Ethernet)并引入 SRv6 源路由,实现了三大技术创新:
-
自适应包喷射(Adaptive Packet Spraying):
- 将单个数据包同时分散到数百条路径上,避免单一路径拥塞。
- 若某条路径失效,剩余路径仍可继续传输,显著降低尾部延迟。
-
微秒级故障恢复(Microsecond Failure Recovery):
- 路由信息预先写入 NIC,交换机仅按固定路径转发,无需动态计算。
- 链路或交换机故障检测后,NIC 在微秒内重新规划路径,训练作业不被中断。
-
多平面网络与两层交换(Multi‑Plane Two‑Tier Topology):
- 将 800Gb/s 接口拆分为八个 100Gb/s 子链路,每个子链路连接不同交换机。
- 同等带宽下,仅需两层交换机即可支撑约 13.1 万 GPU,光模块与交换机数量分别降至 2/3 与 3/5,延迟与故障影响范围同步缩减。
硬件实现
MRC 已在以下硬件上验证:
- NIC:NVIDIA ConnectX‑8、AMD Pollara、AMD Vulcano、Broadcom Thor Ultra(400/800Gb/s RDMA)。
- 交换机:NVIDIA Spectrum‑4/5(运行 Cumulus 与 SONiC)、Broadcom Tomahawk 5(Arista EOS)。
- 拥塞控制:AMD 提供的 NSCC 算法已纳入 Ultra Ethernet Consortium(UEC)规范。
现场部署与案例
MRC 已在 OpenAI 的 GB200 超级计算平台以及 Microsoft Fairwater 超算中投入生产,涵盖美国德克萨斯州的 Oracle Cloud 基站和美国东部的多座 Fairwater 机房。该协议支撑了 ChatGPT 与 Codex 等前沿模型的训练,在一次大规模模型迭代中成功完成了四层交换机的无缝重启,未对训练作业造成任何中断。
影响与展望
- 成本与能效:两层网络结构显著降低光模块与交换机采购成本,同时因交换机转发负载降低,整体功耗下降。
- 可靠性提升:微秒级恢复让网络故障对模型训练的影响几乎可以忽略,为大模型持续迭代提供了更稳固的底层支撑。
- 生态开放:通过 OCP 开源规格,业界可基于 MRC 构建自定义的 AI 超算网络,推动从单一厂商生态向多厂商协同演进。
未来,随着 GPU 数量突破十万规模,MRC 可能成为新一代 AI 超算的网络标准,为多模态、跨模态大模型的训练提供可靠的高速数据通道。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。