OpenAI发布GPT‑5.3‑Codex‑Spark 实时编码模型实现千字每秒低延迟

关键特性

实时交互：在Cerebras专用低延迟硬件上，每秒生成超过1000个token，几乎实现即时反馈。
大上下文：128k token 上下文窗口，适用于长文件、复杂项目的整体审视。
轻量化编辑：默认生成最小化、针对性的代码修改，除非用户显式请求运行测试。
安全防护：继承OpenAI主线模型的网络安全训练，满足企业级安全合规需求。

性能基准

在 SWE‑Bench Pro 与 Terminal‑Bench 2.0 两大软件工程基准上，GPT‑5.3‑Codex‑Spark 在保持高准确率的同时，将任务完成时间缩短至原模型的约1/5。具体表现为：

生成速度提升：整体 latency 降低80%，每token 开销下降30%。
首 token 响应：time‑to‑first‑token 缩短50%，显著提升交互流畅度。

硬件合作与实现

本模型跑在 Cerebras Wafer Scale Engine 3（WSE‑3）上，这是一种为超低时延推理专门设计的 AI 加速器。OpenAI 与 Cerebras 在1月宣布合作后，完成了全栈优化：从客户端‑服务器的流式传输协议到模型会话初始化均进行重构，引入持久化 WebSocket 连接，实现端到端时延的系统性压缩。

可用性与未来路线

研究预览：今日起向 ChatGPT Pro 用户开放，可在 Codex 应用、CLI 与 VS Code 插件中使用。使用期间采用独立速率限制，可能因需求高峰出现排队。
API 试点：少数设计合作伙伴已获准调用 Codex‑Spark API，以评估产品集成场景。
后续计划：基于开发者反馈，OpenAI 将逐步扩展模型规模、上下文长度，并引入多模态输入，以形成兼具长时程推理与即时协作的双模态 Codex 系统。

“我们最期待的是通过超低延迟模型开启全新的交互模式，让开发者能够在代码迭代的每一步都感受到即时响应的自然流畅。” — Sean Lie, Cerebras 首席技术官

实时编码的突破不仅提升单次编辑效率，更可能重塑软件开发的协作范式。随着硬件与算法的协同进化，OpenAI 与 Cerebras 的合作或将在未来定义“代码即服务”的新标尺。

OpenAI发布GPT‑5.3‑Codex‑Spark 实时编码模型实现千字每秒低延迟

关键特性

性能基准

硬件合作与实现

可用性与未来路线

标签分类