OpenAI发布GPT‑5.3‑Codex‑Spark 实时编码模型实现千字每秒低延迟
•30 阅读•3分钟•前沿
OpenAICerebrasCodexGPT-5.3
•30 阅读•3分钟•前沿

关键特性
- 实时交互:在Cerebras专用低延迟硬件上,每秒生成超过1000个token,几乎实现即时反馈。
- 大上下文:128k token 上下文窗口,适用于长文件、复杂项目的整体审视。
- 轻量化编辑:默认生成最小化、针对性的代码修改,除非用户显式请求运行测试。
- 安全防护:继承OpenAI主线模型的网络安全训练,满足企业级安全合规需求。
性能基准
在 SWE‑Bench Pro 与 Terminal‑Bench 2.0 两大软件工程基准上,GPT‑5.3‑Codex‑Spark 在保持高准确率的同时,将任务完成时间缩短至原模型的约1/5。具体表现为:
- 生成速度提升:整体 latency 降低80%,每token 开销下降30%。
- 首 token 响应:time‑to‑first‑token 缩短50%,显著提升交互流畅度。
硬件合作与实现
本模型跑在 Cerebras Wafer Scale Engine 3(WSE‑3)上,这是一种为超低时延推理专门设计的 AI 加速器。OpenAI 与 Cerebras 在1月宣布合作后,完成了全栈优化:从客户端‑服务器的流式传输协议到模型会话初始化均进行重构,引入持久化 WebSocket 连接,实现端到端时延的系统性压缩。
可用性与未来路线
- 研究预览:今日起向 ChatGPT Pro 用户开放,可在 Codex 应用、CLI 与 VS Code 插件中使用。使用期间采用独立速率限制,可能因需求高峰出现排队。
- API 试点:少数设计合作伙伴已获准调用 Codex‑Spark API,以评估产品集成场景。
- 后续计划:基于开发者反馈,OpenAI 将逐步扩展模型规模、上下文长度,并引入多模态输入,以形成兼具长时程推理与即时协作的双模态 Codex 系统。
“我们最期待的是通过超低延迟模型开启全新的交互模式,让开发者能够在代码迭代的每一步都感受到即时响应的自然流畅。” — Sean Lie, Cerebras 首席技术官
实时编码的突破不仅提升单次编辑效率,更可能重塑软件开发的协作范式。随着硬件与算法的协同进化,OpenAI 与 Cerebras 的合作或将在未来定义“代码即服务”的新标尺。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。