OpenAI推出上下文感知安全升级 助ChatGPT更精准识别危机信号

23 阅读2分钟视野
OpenAI推出上下文感知安全升级 助ChatGPT更精准识别危机信号

背景

在日均数亿次交互中,少数对话涉及用户的情绪危机或潜在伤害意图。OpenAI 长期致力于让模型在这些高风险场景下保持谨慎,避免误导或放大危害。此次更新聚焦于“上下文感知”,即在多轮对话乃至跨会话时捕捉渐进式风险信号。

关键升级

  • 安全摘要:模型会在检测到潜在风险时生成简短、事实化的安全摘要,仅在后续高危请求出现时短期调用,避免长期记忆带来的隐私风险。
  • 上下文加权:通过强化学习与安全推理微调,使模型在后续发言中自动参考前文的危机线索,提高拒绝或去激化的准确率。
  • 危机场景细化:新增自杀、自残、针对他人伤害三大细分场景的专属策略,支持更精准的资源链接与专业帮助建议。

与心理健康专家合作

OpenAI 与全球心理健康专家网络(包括精神科医生、法医心理学家)深度合作,明确安全摘要的生成原则、上下文保留时长以及何时触发高危干预。专家们提供了真实案例和风险阈值,确保模型的判断基于临床经验而非单纯数据统计。

性能提升

内部评测显示:

  • 单轮对话中,自杀与自残场景的安全响应提升 50%
  • 针对他人伤害的响应提升 16%
  • 在 GPT‑5.5 Instant 上,多轮跨会话的安全响应提升 52%(他人伤害)和 39%(自杀/自残)。
  • 超过 4,000 条安全摘要评估中,相关性得分 4.93/5,事实性得分 4.34/5

这些数据表明,模型在捕捉渐进式风险方面已显著超越以往的单句检测能力。

展望

OpenAI 表示,未来将把相同的上下文感知方法推广至生物安全、网络安全等高风险领域,同时继续完善安全摘要的准确性与可解释性,确保在提升安全性的同时不牺牲普通对话的流畅体验。

"安全不是一个选项,而是每一次对话的底线。" — OpenAI 安全团队

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。