OpenAI发布GPT‑5.4 Pro和Thinking版，千兆级上下文与效率再创新高

核心版本概览

OpenAI 将模型的上下文窗口扩大至 1 百万令牌，是目前公开可用模型中最大的窗口。此举让用户能够一次性处理超长文档、完整代码库或多轮对话，而无需频繁截断或分片，显著降低了上下文管理的复杂度。

OSWorld‑Verified & WebArena Verified：在两大计算使用基准上刷新纪录，分别超出前代模型 12% 与 15% 的分数。
GDPval：在知识工作任务评估中取得 83% 的得分，创下公开可比最高记录。
APEX‑Agents（Mercor公司法律/金融专业基准）：领先竞争模型 9% 以上，特别是在生成财务模型、法律分析报告等长时程交付物时表现尤为突出。

OpenAI 强调 Token 效率 的提升，GPT‑5.4 在相同任务下使用的 token 数比 GPT‑5.2 少约 30%，这直接转化为 API 成本的显著下降。

传统的工具调用需要在系统提示中一次性列出所有可用工具定义，令牌消耗随工具数量线性增长。GPT‑5.4 引入 Tool Search，模型在需要时即时检索工具定义，仅在实际调用时加载相关描述，令多工具环境下的请求更快、更廉价。

幻觉率下降：与 GPT‑5.2 相比，单条陈述的错误率下降 33%，整体响应错误率下降 18%。
思考链安全评估：针对 Thinking 版本进行专门的链式思考安全测试，结果显示模型在隐藏错误推理的可能性上显著低于标准版，进一步验证了 CoT 监控的有效性。

凭借更长的上下文、卓越的专业基准以及更低的使用成本，GPT‑5.4 有望在企业级知识工作、法律合规、金融分析等高价值垂直领域抢占更大份额。分析师预测，随着 API 费用的下降和工具调用效率的提升，OpenAI 在 B2B 市场的收入增长将在今年第四季度显现加速迹象。

“GPT‑5.4 Thinking 在法律文书生成上的表现已经接近人类专家水平，”Mercor CEO Brendan Foody 在接受采访时表示。

结语：GPT‑5.4 通过千兆级上下文、双版本定位以及全新工具检索机制，展示了 OpenAI 在前沿大模型研发上的持续领先，也为企业级 AI 应用打开了更高效、更安全的可能性。