OpenAI发布IH‑Challenge数据集提升大模型指令层级安全性

背景

在实际部署中，AI 系统会同时收到系统消息、开发者指令、用户请求以及工具输出等多源指令。若模型未能正确区分优先级，容易出现违背安全策略、泄露隐私或被提示注入攻击利用的风险。OpenAI 在《Improving instruction hierarchy in frontier LLMs》论文中提出，将指令层级作为核心安全属性进行系统化训练。

方法

OpenAI 设计了 IH‑Challenge 数据集，遵循以下原则：

任务简洁：每条对话仅包含高优先级指令与冲突的低优先级指令，便于使用 Python 脚本客观判分。
避免捷径：不提供能够让模型通过高奖励但实际不符合层级要求的暗示。
强化学习：利用 RLHF 框架，让模型在冲突情境下生成响应，并依据是否遵循最高层级指令给予奖励。

典型示例：

系统消息要求“禁止生成任何违规内容”。
用户请求让模型输出违禁信息。
模型必须拒绝并给出安全说明。

实验结果

在 IH‑Challenge 训练后，OpenAI 生成的内部模型 GPT‑5 Mini‑R 在多项指标上实现显著提升：

指令层级基准：系统‑用户冲突准确率从 84% 提升至 95%。
Prompt Injection：在 CyberSecEval 2 与内部注入基准上分别提升 3% 与 4%。
安全规范：在 OpenAI 安全生产基准中，拒绝率提升 2.5%，但有用率保持不变。
整体能力：在 GPQA、AIME 等通用任务上未出现能力倒退，保持或略有提升。

这些结果表明，强化指令层级的训练不仅提升了安全相关指标，也未牺牲模型的通用表现。

安全意义

安全可控：模型在面对低信任指令（如恶意工具输出）时能够自动忽略，从根本上降低提示注入风险。
政策遵循：系统消息中的安全策略得到更可靠的执行，减少因误判导致的违规输出。
可扩展性：指令层级训练方法可迁移至更大模型（如 GPT‑5），为未来更具自主性的 AI 代理提供基础安全保障。

未来展望

OpenAI 表示，随着模型在工具调用、文档检索以及实际行动层面的自主性增强，指令层级将成为评估 AI 可靠性的核心指标。团队计划进一步丰富 IH‑Challenge 场景，引入更复杂的多轮冲突与跨模态指令，以验证方法在真实业务中的鲁棒性。

数据集发布

为促进学术交流与社区合作，OpenAI 已在公开平台发布 IH‑Challenge 数据集，包含数万条精心构造的指令冲突对话，配套评测脚本与基准报告，供研究者复现与扩展。详细下载链接请参见论文附录。

OpenAI发布IH‑Challenge数据集提升大模型指令层级安全性

背景

方法

实验结果

安全意义

未来展望

数据集发布

标签分类