微软发布Maia 200推理加速器 打造Azure云算力新标杆

27 阅读4分钟视野

背景与定位

在大模型推理成本持续攀升的背景下,微软宣布首款仅用于推理的自研硅片——Maia 200。不同于训练芯片侧重全连接通信,Maia 200围绕“每秒Token数、延迟与每美元Token”三大指标进行优化,旨在为Azure云平台提供更高性价比的推理算力。

核心规格

  • 制程与规模:采用台积电3nm工艺,单颗芯片集成约1400亿晶体管。
  • 计算能力:原生FP4张量核峰值超过10 PFLOPS,FP8张量核峰值超过5 PFLOPS,功耗控制在750 W TDP。
  • 存储层次:配备216 GB HBM3e(带宽约7 TB/s)+ 272 MB on‑die SRAM,SRAM在Tile与Cluster层级划分,可由软件显式管理。
  • 网络架构:内部采用分层Network‑on‑Chip,外部集成专属NIC,单向以太网带宽1.4 TB/s,支持最多6,144颗加速器的两层全连通拓扑。

微架构亮点

Maia 200的计算单元以Tile为基本自治模块,每个Tile包含:

  • Tile Tensor Unit:高吞吐矩阵运算核心。
  • Tile Vector Processor:可编程SIMD引擎。
  • Tile SRAM:本地高速缓存,供张量与向量数据直接供给。
  • Tile DMA & Control Processor:负责数据搬运与指令调度。

多个Tile组成Cluster,共享更大容量的Cluster SRAM并通过Cluster DMA与HBM交互。该层级设计让软件能够将模型不同子结构(如Q、K、V张量)固定在Tile SRAM,而将大规模通信负载放在Cluster SRAM或HBM,从而最大化算力利用率并降低带宽瓶颈。

系统集成与部署

在Azure数据中心,Maia 200遵循与GPU服务器相同的机架、功耗与散热标准,支持风冷与二代闭环液冷两种方案。四颗加速器可组成Fully Connected Quad,实现内部非交换式高速互连,只有轻量级集体通信才会跨Quad上行至交换机,大幅降低延迟并减少交换端口需求。

加速器通过Azure统一控制平面进行固件管理、健康监控与遥测,确保大规模 fleet 的一致性运维。微软计划将Maia 200用于Azure Foundry、Microsoft 365 Copilot以及内部Superintelligence团队的合成数据生成与强化学习任务。

性能与竞争格局

微软声称,Maia 200在每美元性能上比当前Azure推理系统提升约30%,在FP4性能上相当于第三代Amazon Trainium的三倍,并在FP8上超越Google TPU v7的加速器层级表现。若如实,这将为云端大模型推理提供显著的成本优势,并可能推动业界向更细粒度的低精度计算迁移。

业界影响

  • 成本压缩:降低Token生成费用,促进企业级大模型部署。
  • 生态兼容:基于标准以太网和软件可管理的SRAM层级,便于现有AI框架迁移。
  • 竞争加剧:微软自研硅片的出现,迫使AWS、Google等云厂商加速推理芯片迭代。

总体来看,Maia 200标志着云计算巨头在AI推理专用硬件领域的首次系统级布局,未来其在Azure生态中的渗透程度将直接影响行业算力成本的演进路径。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。