OpenAI推出上下文感知安全升级 助ChatGPT更精准识别危机信号
•23 阅读•2分钟•视野
ChatGPTOpenAI安全心理健康
•23 阅读•2分钟•视野

背景
在日均数亿次交互中,少数对话涉及用户的情绪危机或潜在伤害意图。OpenAI 长期致力于让模型在这些高风险场景下保持谨慎,避免误导或放大危害。此次更新聚焦于“上下文感知”,即在多轮对话乃至跨会话时捕捉渐进式风险信号。
关键升级
- 安全摘要:模型会在检测到潜在风险时生成简短、事实化的安全摘要,仅在后续高危请求出现时短期调用,避免长期记忆带来的隐私风险。
- 上下文加权:通过强化学习与安全推理微调,使模型在后续发言中自动参考前文的危机线索,提高拒绝或去激化的准确率。
- 危机场景细化:新增自杀、自残、针对他人伤害三大细分场景的专属策略,支持更精准的资源链接与专业帮助建议。
与心理健康专家合作
OpenAI 与全球心理健康专家网络(包括精神科医生、法医心理学家)深度合作,明确安全摘要的生成原则、上下文保留时长以及何时触发高危干预。专家们提供了真实案例和风险阈值,确保模型的判断基于临床经验而非单纯数据统计。
性能提升
内部评测显示:
- 单轮对话中,自杀与自残场景的安全响应提升 50%;
- 针对他人伤害的响应提升 16%;
- 在 GPT‑5.5 Instant 上,多轮跨会话的安全响应提升 52%(他人伤害)和 39%(自杀/自残)。
- 超过 4,000 条安全摘要评估中,相关性得分 4.93/5,事实性得分 4.34/5。
这些数据表明,模型在捕捉渐进式风险方面已显著超越以往的单句检测能力。
展望
OpenAI 表示,未来将把相同的上下文感知方法推广至生物安全、网络安全等高风险领域,同时继续完善安全摘要的准确性与可解释性,确保在提升安全性的同时不牺牲普通对话的流畅体验。
"安全不是一个选项,而是每一次对话的底线。" — OpenAI 安全团队
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。