OpenAI发布MRC协议让百千GPU训练网络实现微秒级容错与两层交换

背景

在训练前沿大模型时，GPU算力已不再是唯一瓶颈，网络延迟与拥塞同样会导致成千上万的GPU闲置。OpenAI 通过两年研发，与业界领军硬件厂商合作，推出了 MRC（Multipath Reliable Connection）协议，并在 Open Compute Project（OCP）上开源，旨在把网络可靠性和可预测性提升到与算力同等重要的层级。

MRC核心机制

MRC 基于 RoCE（RDMA over Converged Ethernet）并引入 SRv6 源路由，实现了三大技术创新：

自适应包喷射（Adaptive Packet Spraying）：
- 将单个数据包同时分散到数百条路径上，避免单一路径拥塞。
- 若某条路径失效，剩余路径仍可继续传输，显著降低尾部延迟。
微秒级故障恢复（Microsecond Failure Recovery）：
- 路由信息预先写入 NIC，交换机仅按固定路径转发，无需动态计算。
- 链路或交换机故障检测后，NIC 在微秒内重新规划路径，训练作业不被中断。
多平面网络与两层交换（Multi‑Plane Two‑Tier Topology）：
- 将 800Gb/s 接口拆分为八个 100Gb/s 子链路，每个子链路连接不同交换机。
- 同等带宽下，仅需两层交换机即可支撑约 13.1 万 GPU，光模块与交换机数量分别降至 2/3 与 3/5，延迟与故障影响范围同步缩减。

硬件实现

MRC 已在以下硬件上验证：

NIC：NVIDIA ConnectX‑8、AMD Pollara、AMD Vulcano、Broadcom Thor Ultra（400/800Gb/s RDMA）。
交换机：NVIDIA Spectrum‑4/5（运行 Cumulus 与 SONiC）、Broadcom Tomahawk 5（Arista EOS）。
拥塞控制：AMD 提供的 NSCC 算法已纳入 Ultra Ethernet Consortium（UEC）规范。

现场部署与案例

MRC 已在 OpenAI 的 GB200 超级计算平台以及 Microsoft Fairwater 超算中投入生产，涵盖美国德克萨斯州的 Oracle Cloud 基站和美国东部的多座 Fairwater 机房。该协议支撑了 ChatGPT 与 Codex 等前沿模型的训练，在一次大规模模型迭代中成功完成了四层交换机的无缝重启，未对训练作业造成任何中断。

影响与展望

成本与能效：两层网络结构显著降低光模块与交换机采购成本，同时因交换机转发负载降低，整体功耗下降。
可靠性提升：微秒级恢复让网络故障对模型训练的影响几乎可以忽略，为大模型持续迭代提供了更稳固的底层支撑。
生态开放：通过 OCP 开源规格，业界可基于 MRC 构建自定义的 AI 超算网络，推动从单一厂商生态向多厂商协同演进。

未来，随着 GPU 数量突破十万规模，MRC 可能成为新一代 AI 超算的网络标准，为多模态、跨模态大模型的训练提供可靠的高速数据通道。

OpenAI发布MRC协议让百千GPU训练网络实现微秒级容错与两层交换

背景

MRC核心机制

硬件实现

现场部署与案例

影响与展望

标签分类