OpenAI发布GPT‑5.4 Pro和Thinking版,千兆级上下文与效率再创新高
•0 阅读•3分钟•前沿
OpenAIGPT-5.4Tool Search千兆级上下文
Russell Brandom••0 阅读•3分钟•前沿

核心版本概览
- GPT‑5.4 Pro:面向高并发、高吞吐的企业级应用,优化计算图与并行调度,实现更快响应并降低每千字节成本。
- GPT‑5.4 Thinking:专注推理与链式思考,内置更深层次的CoT(思考链)监控,提升多步任务的可靠性,尤其在法律、金融等专业场景表现突出。
千兆级上下文突破
OpenAI 将模型的上下文窗口扩大至 1 百万令牌,是目前公开可用模型中最大的窗口。此举让用户能够一次性处理超长文档、完整代码库或多轮对话,而无需频繁截断或分片,显著降低了上下文管理的复杂度。
性能与基准
- OSWorld‑Verified & WebArena Verified:在两大计算使用基准上刷新纪录,分别超出前代模型 12% 与 15% 的分数。
- GDPval:在知识工作任务评估中取得 83% 的得分,创下公开可比最高记录。
- APEX‑Agents(Mercor公司法律/金融专业基准):领先竞争模型 9% 以上,特别是在生成财务模型、法律分析报告等长时程交付物时表现尤为突出。
效率与代价
OpenAI 强调 Token 效率 的提升,GPT‑5.4 在相同任务下使用的 token 数比 GPT‑5.2 少约 30%,这直接转化为 API 成本的显著下降。
新增 Tool Search 系统
传统的工具调用需要在系统提示中一次性列出所有可用工具定义,令牌消耗随工具数量线性增长。GPT‑5.4 引入 Tool Search,模型在需要时即时检索工具定义,仅在实际调用时加载相关描述,令多工具环境下的请求更快、更廉价。
安全与可信度提升
- 幻觉率下降:与 GPT‑5.2 相比,单条陈述的错误率下降 33%,整体响应错误率下降 18%。
- 思考链安全评估:针对 Thinking 版本进行专门的链式思考安全测试,结果显示模型在隐藏错误推理的可能性上显著低于标准版,进一步验证了 CoT 监控的有效性。
市场与行业影响
凭借更长的上下文、卓越的专业基准以及更低的使用成本,GPT‑5.4 有望在企业级知识工作、法律合规、金融分析等高价值垂直领域抢占更大份额。分析师预测,随着 API 费用的下降和工具调用效率的提升,OpenAI 在 B2B 市场的收入增长将在今年第四季度显现加速迹象。
“GPT‑5.4 Thinking 在法律文书生成上的表现已经接近人类专家水平,”Mercor CEO Brendan Foody 在接受采访时表示。
结语:GPT‑5.4 通过千兆级上下文、双版本定位以及全新工具检索机制,展示了 OpenAI 在前沿大模型研发上的持续领先,也为企业级 AI 应用打开了更高效、更安全的可能性。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。