OpenAI推出防注入机制强化AI代理安全
•10 阅读•3分钟•视野
ChatGPTOpenAIPrompt InjectionSafe Url
•10 阅读•3分钟•视野

引言
OpenAI近日发布《Designing AI agents to resist prompt injection》研究,系统阐述了在AI代理可浏览网页、执行任务的场景下,如何通过架构设计和安全机制抵御提示注入和社会工程攻击。
提示注入的演进
- 早期攻击仅通过在维基页面等外部内容植入直接指令,使模型盲目执行;
- 随着模型能力提升,攻击者加入了欺骗性语言、伪装成业务邮件等社会工程要素,成功率显著上升。
防御思路:限制影响而非仅识别
OpenAI 将防御模型定位为“三方系统”:用户‑AI‑外部资源。核心原则是即使攻击成功,也要将潜在危害限制在可控范围。具体措施包括:
- 源‑汇分析:将所有可能导致敏感操作的输入视为“源”,将数据传输、工具调用视为“汇”,只有在源‑汇链路被明确授权时才允许执行。
- 安全沙箱:对所有工具调用、URL 访问、文件写入等操作进行沙箱化,任何异常通信都会被拦截并提示用户确认。
- Safe Url 机制:在模型检测到可能将对话中获取的敏感信息发送至第三方时,弹出确认对话或直接阻断,并在界面上展示即将传输的内容。
实际案例
2025 年一次外部安全研究者上报的攻击示例中,攻击者在邮件中嵌入指令,诱导 ChatGPT 读取员工姓名、地址并尝试调用合规验证接口。通过 Safe Url,系统在检测到信息泄露风险后立即提示用户,防止了数据外泄。
展望
OpenAI 表示,未来将继续把“社会工程模型”与传统安全工程相结合,探索更细粒度的权限控制和自动化审计。随着 AI 代理功能的进一步自治,构建类似人类客服的风险管理框架,将成为保障企业和用户安全的必然路径。
行业建议
- 为每类工具设定明确的 最大授权额度(如退款上限、转账上限);
- 在多方协作场景下,引入 双因素确认,即使模型生成指令,也必须经人工或第二层 AI 审核;
- 定期进行 红队演练,模拟社会工程攻击,评估防御体系的有效性。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。