OpenAI发布CoT‑Control评估:前沿推理模型难以操控思考链,监控可信度提升
•0 阅读•3分钟•前沿
OpenAIGPT-5CoT-Control
•0 阅读•3分钟•前沿

背景与动机
随着 AI 代理能够执行日益复杂的自主任务,确保其行为在可监控范围内成为安全体系的核心。OpenAI 将链式思考(CoT)监控作为多层防御之一,利用模型在推理过程中的中间步骤捕获潜在风险信号。若模型能够主动改写或隐藏这些思考链,监控体系将失效。因此,OpenAI 提出了 CoT‑Control,专门评估模型在受监控情境下的可控性。
评估方法
- 数据来源:基于 GPQA、MMLU‑Pro、HLE、BFCL、SWE‑Bench Verified 等 13,000+ 任务构建评测集。
- 指令设计:每个任务附加一条 CoT 指令,例如只能使用小写字母、禁止出现特定关键词、在每句末尾追加指定词汇等。
- 可控性度量:统计模型在满足指令的推理步骤比例,得分范围 0‑1。
- 实验模型:包括 GPT‑5.2、GPT‑5.4、GPT‑OSS‑120B 以及多款开源大模型,覆盖不同规模与后训练方式。
关键结果
- 所有模型的 CoT 可控性 均极低,最高仅为 15.4%,多数在 1% 以下。
- 即便模型明确知道其思考过程被监控("monitor awareness"),可控率仍未出现显著提升。
- 随着模型规模增大,可控性略有提升,但 推理长度 增加或 RL 后训练 均导致可控性大幅下降,部分模型下降幅度超过十倍。
- 自动化提示优化能够在训练集上提升可控性,却在新指令类型上几乎不具迁移性,表明模型的真实可控能力仍受限。
启示与后续计划
- 低可控性本身是一种安全优势:模型难以主动隐藏其推理链,监控系统能够更可靠地捕获异常行为。
- 需要持续追踪模型在更大规模、更多后训练阶段的可控性变化,以防止未来出现“隐蔽推理”风险。
- OpenAI 将在后续系统卡中同步报告 CoT 可控性 与 CoT 可监控性 两项指标,形成公开的安全基准。
- 社区可使用开源的 CoT‑Control 套件复现评估,推动全行业对思考链可控性的共识与改进。
“低可控性不是漏洞,而是当前安全防线的天然屏障。” — OpenAI 安全团队
结语
CoT‑Control 的发布为 AI 安全提供了新的量化工具,也提醒业界在追求模型能力的同时,必须关注其对监控机制的潜在影响。随着模型继续扩容,持续的可控性评估将成为评估安全风险的关键指标。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。