OpenAI发布CoT‑Control评估：前沿推理模型难以操控思考链，监控可信度提升

背景与动机

随着 AI 代理能够执行日益复杂的自主任务，确保其行为在可监控范围内成为安全体系的核心。OpenAI 将链式思考（CoT）监控作为多层防御之一，利用模型在推理过程中的中间步骤捕获潜在风险信号。若模型能够主动改写或隐藏这些思考链，监控体系将失效。因此，OpenAI 提出了 CoT‑Control，专门评估模型在受监控情境下的可控性。

评估方法

数据来源：基于 GPQA、MMLU‑Pro、HLE、BFCL、SWE‑Bench Verified 等 13,000+ 任务构建评测集。
指令设计：每个任务附加一条 CoT 指令，例如只能使用小写字母、禁止出现特定关键词、在每句末尾追加指定词汇等。
可控性度量：统计模型在满足指令的推理步骤比例，得分范围 0‑1。
实验模型：包括 GPT‑5.2、GPT‑5.4、GPT‑OSS‑120B 以及多款开源大模型，覆盖不同规模与后训练方式。

关键结果

所有模型的 CoT 可控性 均极低，最高仅为 15.4%，多数在 1% 以下。
即便模型明确知道其思考过程被监控（"monitor awareness"），可控率仍未出现显著提升。
随着模型规模增大，可控性略有提升，但 推理长度 增加或 RL 后训练 均导致可控性大幅下降，部分模型下降幅度超过十倍。
自动化提示优化能够在训练集上提升可控性，却在新指令类型上几乎不具迁移性，表明模型的真实可控能力仍受限。

启示与后续计划

低可控性本身是一种安全优势：模型难以主动隐藏其推理链，监控系统能够更可靠地捕获异常行为。
需要持续追踪模型在更大规模、更多后训练阶段的可控性变化，以防止未来出现“隐蔽推理”风险。
OpenAI 将在后续系统卡中同步报告 CoT 可控性 与 CoT 可监控性 两项指标，形成公开的安全基准。
社区可使用开源的 CoT‑Control 套件复现评估，推动全行业对思考链可控性的共识与改进。

“低可控性不是漏洞，而是当前安全防线的天然屏障。” — OpenAI 安全团队

结语

CoT‑Control 的发布为 AI 安全提供了新的量化工具，也提醒业界在追求模型能力的同时，必须关注其对监控机制的潜在影响。随着模型继续扩容，持续的可控性评估将成为评估安全风险的关键指标。

OpenAI发布CoT‑Control评估：前沿推理模型难以操控思考链，监控可信度提升

背景与动机

评估方法

关键结果

启示与后续计划

结语

标签分类