OpenAI推出上下文感知安全升级助ChatGPT更精准识别危机信号

2026/05/14 (周四)•23 阅读•2分钟•视野

ChatGPTOpenAI安全心理健康

2026/05/14 (周四)•23 阅读•2分钟•视野

OpenAI推出上下文感知安全升级助ChatGPT更精准识别危机信号

背景

在日均数亿次交互中，少数对话涉及用户的情绪危机或潜在伤害意图。OpenAI 长期致力于让模型在这些高风险场景下保持谨慎，避免误导或放大危害。此次更新聚焦于“上下文感知”，即在多轮对话乃至跨会话时捕捉渐进式风险信号。

关键升级

安全摘要：模型会在检测到潜在风险时生成简短、事实化的安全摘要，仅在后续高危请求出现时短期调用，避免长期记忆带来的隐私风险。
上下文加权：通过强化学习与安全推理微调，使模型在后续发言中自动参考前文的危机线索，提高拒绝或去激化的准确率。
危机场景细化：新增自杀、自残、针对他人伤害三大细分场景的专属策略，支持更精准的资源链接与专业帮助建议。

与心理健康专家合作

OpenAI 与全球心理健康专家网络（包括精神科医生、法医心理学家）深度合作，明确安全摘要的生成原则、上下文保留时长以及何时触发高危干预。专家们提供了真实案例和风险阈值，确保模型的判断基于临床经验而非单纯数据统计。

性能提升

内部评测显示：

单轮对话中，自杀与自残场景的安全响应提升 50%；
针对他人伤害的响应提升 16%；
在 GPT‑5.5 Instant 上，多轮跨会话的安全响应提升 52%（他人伤害）和 39%（自杀/自残）。
超过 4,000 条安全摘要评估中，相关性得分 4.93/5，事实性得分 4.34/5。

这些数据表明，模型在捕捉渐进式风险方面已显著超越以往的单句检测能力。

展望

OpenAI 表示，未来将把相同的上下文感知方法推广至生物安全、网络安全等高风险领域，同时继续完善安全摘要的准确性与可解释性，确保在提升安全性的同时不牺牲普通对话的流畅体验。

"安全不是一个选项，而是每一次对话的底线。" — OpenAI 安全团队

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。