Cerebras加速IPO揭示AI算力新格局,Agentic推理将重塑计算架构
背景与IPO动向
Reuters报道,AI芯片公司Cerebras正准备在2026年5月提升IPO价格区间至每股150‑160美元,并将发行股数增至3000万。此举源于市场对AI算力需求的持续飙升,尤其是随着大模型与Agentic系统对计算资源的依赖加深,资本对芯片厂商的热情前所未有。
GPU时代的回顾
自NVIDIA通过可编程GPU和CUDA生态奠定AI计算基石以来,算力增长主要依赖高带宽存储(HBM)和芯片间高速互联。训练阶段需要成千上万GPU并行协同,序列化的梯度同步让带宽成为瓶颈;而推理阶段则分为prefill(并行)和decode(串行)两大步骤,同样受限于KV缓存和模型权重的读取速度。NVIDIA的H100凭借80GB HBM和3.35TB/s带宽,仍是当下主流推理芯片。
Cerebras全晶圆芯片的突破
Cerebras采用“全晶圆即芯片”工艺,将300mm硅片整个暴露为单一芯片,摆脱了传统的reticle限制。其最新WSE‑3芯片拥有44GB on‑chip SRAM,带宽高达21PB/s,远超H100的3.35TB/s。虽然容量仅为H100的约一半,但在带宽上实现了6000倍提升,使得在单芯片内完成KV缓存与权重读取成为可能。
然而,这种设计的局限同样明显:一旦模型或缓存超出片上SRAM,性能优势便会快速消失,且制造良率低导致成本高企。当前Cerebras更适合“答案推理”(answer inference),即对响应时间极度敏感的场景,如代码补全等。
Agentic推理的未来需求
作者提出,随着LLM从单纯的答案生成向真正的Agentic推理转变,算力的核心需求将从速度转向记忆容量与层级。Agentic系统需要持久化的上下文、状态和历史记录,这些信息往往存储在KV缓存、主机内存、SSD乃至外部向量库中。
在此情境下,延迟不再是首要约束,而是成本与容量的权衡。传统GPU的高带宽高功耗优势失去意义,低功耗、成本更低的DRAM或持久化存储将成为关键。换句话说,未来的硬件栈可能由CPU主导计算,辅以大容量、相对低速的记忆层,以支撑长时序的Agentic任务。
产业影响与竞争格局
NVIDIA已经意识到这一趋势,推出Dynamo推理框架并提供独立的内存与CPU机架,以拆解传统GPU的“一体化”推理流程。与此同时,Cerebras的高速片上SRAM仍在答案推理细分市场拥有竞争力,尤其是对实时交互(如语音助手)有严格时延要求的应用。
对中国而言,虽然在前沿制程上仍落后,但已有足够的中高端GPU、CPU、DRAM与存储资源,可快速构建Agentic推理所需的记忆层级体系。更有甚者,低功耗芯片在太空数据中心的优势——更高的可靠性、更低的散热需求——也为未来的边缘AI提供了新思路。
结论
Cerebras的IPO加速凸显了AI算力市场的多元化需求:高速芯片仍服务于答案推理,而Agentic推理则将推动硬件向记忆密集型方向演进。行业玩家需要在算力、带宽、成本与可靠性之间重新平衡,系统级创新将成为下一轮算力竞争的关键。