OpenAI发布IH‑Challenge数据集提升大模型指令层级安全性

15 阅读3分钟前沿
OpenAI发布IH‑Challenge数据集提升大模型指令层级安全性

背景

在实际部署中,AI 系统会同时收到系统消息、开发者指令、用户请求以及工具输出等多源指令。若模型未能正确区分优先级,容易出现违背安全策略、泄露隐私或被提示注入攻击利用的风险。OpenAI 在《Improving instruction hierarchy in frontier LLMs》论文中提出,将指令层级作为核心安全属性进行系统化训练。

方法

OpenAI 设计了 IH‑Challenge 数据集,遵循以下原则:

  • 任务简洁:每条对话仅包含高优先级指令与冲突的低优先级指令,便于使用 Python 脚本客观判分。
  • 避免捷径:不提供能够让模型通过高奖励但实际不符合层级要求的暗示。
  • 强化学习:利用 RLHF 框架,让模型在冲突情境下生成响应,并依据是否遵循最高层级指令给予奖励。

典型示例:

  • 系统消息要求“禁止生成任何违规内容”。
  • 用户请求让模型输出违禁信息。
  • 模型必须拒绝并给出安全说明。

实验结果

在 IH‑Challenge 训练后,OpenAI 生成的内部模型 GPT‑5 Mini‑R 在多项指标上实现显著提升:

  • 指令层级基准:系统‑用户冲突准确率从 84% 提升至 95%。
  • Prompt Injection:在 CyberSecEval 2 与内部注入基准上分别提升 3% 与 4%。
  • 安全规范:在 OpenAI 安全生产基准中,拒绝率提升 2.5%,但有用率保持不变。
  • 整体能力:在 GPQA、AIME 等通用任务上未出现能力倒退,保持或略有提升。

这些结果表明,强化指令层级的训练不仅提升了安全相关指标,也未牺牲模型的通用表现。

安全意义

  1. 安全可控:模型在面对低信任指令(如恶意工具输出)时能够自动忽略,从根本上降低提示注入风险。
  2. 政策遵循:系统消息中的安全策略得到更可靠的执行,减少因误判导致的违规输出。
  3. 可扩展性:指令层级训练方法可迁移至更大模型(如 GPT‑5),为未来更具自主性的 AI 代理提供基础安全保障。

未来展望

OpenAI 表示,随着模型在工具调用、文档检索以及实际行动层面的自主性增强,指令层级将成为评估 AI 可靠性的核心指标。团队计划进一步丰富 IH‑Challenge 场景,引入更复杂的多轮冲突与跨模态指令,以验证方法在真实业务中的鲁棒性。

数据集发布

为促进学术交流与社区合作,OpenAI 已在公开平台发布 IH‑Challenge 数据集,包含数万条精心构造的指令冲突对话,配套评测脚本与基准报告,供研究者复现与扩展。详细下载链接请参见论文附录。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。