微软发布Maia 200推理加速器 打造Azure云算力新标杆
背景与定位
在大模型推理成本持续攀升的背景下,微软宣布首款仅用于推理的自研硅片——Maia 200。不同于训练芯片侧重全连接通信,Maia 200围绕“每秒Token数、延迟与每美元Token”三大指标进行优化,旨在为Azure云平台提供更高性价比的推理算力。
核心规格
- 制程与规模:采用台积电3nm工艺,单颗芯片集成约1400亿晶体管。
- 计算能力:原生FP4张量核峰值超过10 PFLOPS,FP8张量核峰值超过5 PFLOPS,功耗控制在750 W TDP。
- 存储层次:配备216 GB HBM3e(带宽约7 TB/s)+ 272 MB on‑die SRAM,SRAM在Tile与Cluster层级划分,可由软件显式管理。
- 网络架构:内部采用分层Network‑on‑Chip,外部集成专属NIC,单向以太网带宽1.4 TB/s,支持最多6,144颗加速器的两层全连通拓扑。
微架构亮点
Maia 200的计算单元以Tile为基本自治模块,每个Tile包含:
- Tile Tensor Unit:高吞吐矩阵运算核心。
- Tile Vector Processor:可编程SIMD引擎。
- Tile SRAM:本地高速缓存,供张量与向量数据直接供给。
- Tile DMA & Control Processor:负责数据搬运与指令调度。
多个Tile组成Cluster,共享更大容量的Cluster SRAM并通过Cluster DMA与HBM交互。该层级设计让软件能够将模型不同子结构(如Q、K、V张量)固定在Tile SRAM,而将大规模通信负载放在Cluster SRAM或HBM,从而最大化算力利用率并降低带宽瓶颈。
系统集成与部署
在Azure数据中心,Maia 200遵循与GPU服务器相同的机架、功耗与散热标准,支持风冷与二代闭环液冷两种方案。四颗加速器可组成Fully Connected Quad,实现内部非交换式高速互连,只有轻量级集体通信才会跨Quad上行至交换机,大幅降低延迟并减少交换端口需求。
加速器通过Azure统一控制平面进行固件管理、健康监控与遥测,确保大规模 fleet 的一致性运维。微软计划将Maia 200用于Azure Foundry、Microsoft 365 Copilot以及内部Superintelligence团队的合成数据生成与强化学习任务。
性能与竞争格局
微软声称,Maia 200在每美元性能上比当前Azure推理系统提升约30%,在FP4性能上相当于第三代Amazon Trainium的三倍,并在FP8上超越Google TPU v7的加速器层级表现。若如实,这将为云端大模型推理提供显著的成本优势,并可能推动业界向更细粒度的低精度计算迁移。
业界影响
- 成本压缩:降低Token生成费用,促进企业级大模型部署。
- 生态兼容:基于标准以太网和软件可管理的SRAM层级,便于现有AI框架迁移。
- 竞争加剧:微软自研硅片的出现,迫使AWS、Google等云厂商加速推理芯片迭代。
总体来看,Maia 200标志着云计算巨头在AI推理专用硬件领域的首次系统级布局,未来其在Azure生态中的渗透程度将直接影响行业算力成本的演进路径。