OpenAI联手Cerebras部署750MW超低时延算力 加速ChatGPT实时响应
•7 次浏览•2分钟•前沿
OpenAICerebras算力实时推理AI硬件
•7 阅读•2分钟•前沿

合作背景
2026年1月,OpenAI在官方博客披露了与Cerebras的全新合作。Cerebras以其单芯片巨型算力而闻名,其WAfer‑Scale Engine(WSE)将计算、内存和带宽整合在同一块芯片上,摆脱了传统服务器的瓶颈。OpenAI将该技术纳入其推理堆栈,以解决大模型实时响应的瓶颈问题。
技术亮点
- 750MW 超低时延算力:相当于数十万块GPU的综合算力,却只需单一芯片实现,显著缩短请求‑思考‑返回的闭环时间。
- 分阶段部署:从2026年至2028年,算力将分批上线,覆盖文本、代码、图像及多模态代理等多种工作负载。
- 弹性匹配:OpenAI的计算策略强调“系统与工作负载最匹配”,Cerebras的低时延推理专机为高交互场景提供专用加速。
行业影响
- 用户体验提升:实时响应意味着用户在对话、编程或创作时的等待时间大幅下降,使用黏性和满意度随之提升。
- 新业务模式:降低推理成本后,企业可以在更高频率的交互场景(如客服、金融交易监控)中部署大模型,催生更多实时AI产品。
- 硬件竞争格局:Cerebras的成功案例在业界形成示范,促使其他芯片厂商加速研发低时延、超大带宽的专用AI加速器。
展望
OpenAI 表示,这一合作是其“构建韧性算力组合”的关键一步。随着算力的持续扩容,ChatGPT 等核心模型有望实现近乎零延迟的交互,推动 AI 从“批处理”向“即时服务”彻底转型。同时,Cerebras 计划将其技术推广至更多 AI 研发机构和云服务商,形成全行业的高速推理网络。
“正如宽带改变了互联网,实时推理将重新定义人与AI的交互。” – Andrew Feldman, Cerebras CEO
整体来看,OpenAI 与 Cerebras 的深度绑定不仅是一次硬件升级,更标志着生成式 AI 进入大规模实时应用的拐点。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。