微软发布Maia 200推理加速器打造Azure云算力新标杆

背景与定位

在大模型推理成本持续攀升的背景下，微软宣布首款仅用于推理的自研硅片——Maia 200。不同于训练芯片侧重全连接通信，Maia 200围绕“每秒Token数、延迟与每美元Token”三大指标进行优化，旨在为Azure云平台提供更高性价比的推理算力。

制程与规模：采用台积电3nm工艺，单颗芯片集成约1400亿晶体管。
计算能力：原生FP4张量核峰值超过10 PFLOPS，FP8张量核峰值超过5 PFLOPS，功耗控制在750 W TDP。
存储层次：配备216 GB HBM3e（带宽约7 TB/s）+ 272 MB on‑die SRAM，SRAM在Tile与Cluster层级划分，可由软件显式管理。
网络架构：内部采用分层Network‑on‑Chip，外部集成专属NIC，单向以太网带宽1.4 TB/s，支持最多6,144颗加速器的两层全连通拓扑。

Maia 200的计算单元以Tile为基本自治模块，每个Tile包含：

多个Tile组成Cluster，共享更大容量的Cluster SRAM并通过Cluster DMA与HBM交互。该层级设计让软件能够将模型不同子结构（如Q、K、V张量）固定在Tile SRAM，而将大规模通信负载放在Cluster SRAM或HBM，从而最大化算力利用率并降低带宽瓶颈。

在Azure数据中心，Maia 200遵循与GPU服务器相同的机架、功耗与散热标准，支持风冷与二代闭环液冷两种方案。四颗加速器可组成Fully Connected Quad，实现内部非交换式高速互连，只有轻量级集体通信才会跨Quad上行至交换机，大幅降低延迟并减少交换端口需求。

加速器通过Azure统一控制平面进行固件管理、健康监控与遥测，确保大规模 fleet 的一致性运维。微软计划将Maia 200用于Azure Foundry、Microsoft 365 Copilot以及内部Superintelligence团队的合成数据生成与强化学习任务。

微软声称，Maia 200在每美元性能上比当前Azure推理系统提升约30%，在FP4性能上相当于第三代Amazon Trainium的三倍，并在FP8上超越Google TPU v7的加速器层级表现。若如实，这将为云端大模型推理提供显著的成本优势，并可能推动业界向更细粒度的低精度计算迁移。

总体来看，Maia 200标志着云计算巨头在AI推理专用硬件领域的首次系统级布局，未来其在Azure生态中的渗透程度将直接影响行业算力成本的演进路径。