OpenAI推出防注入机制强化AI代理安全

2026/03/11 (周三)•10 阅读•3分钟•视野

ChatGPTOpenAIPrompt InjectionSafe Url

2026/03/11 (周三)•10 阅读•3分钟•视野

OpenAI推出防注入机制强化AI代理安全

引言

OpenAI近日发布《Designing AI agents to resist prompt injection》研究，系统阐述了在AI代理可浏览网页、执行任务的场景下，如何通过架构设计和安全机制抵御提示注入和社会工程攻击。

提示注入的演进

早期攻击仅通过在维基页面等外部内容植入直接指令，使模型盲目执行；
随着模型能力提升，攻击者加入了欺骗性语言、伪装成业务邮件等社会工程要素，成功率显著上升。

防御思路：限制影响而非仅识别

OpenAI 将防御模型定位为“三方系统”：用户‑AI‑外部资源。核心原则是即使攻击成功，也要将潜在危害限制在可控范围。具体措施包括：

源‑汇分析：将所有可能导致敏感操作的输入视为“源”，将数据传输、工具调用视为“汇”，只有在源‑汇链路被明确授权时才允许执行。
安全沙箱：对所有工具调用、URL 访问、文件写入等操作进行沙箱化，任何异常通信都会被拦截并提示用户确认。
Safe Url 机制：在模型检测到可能将对话中获取的敏感信息发送至第三方时，弹出确认对话或直接阻断，并在界面上展示即将传输的内容。

实际案例

2025 年一次外部安全研究者上报的攻击示例中，攻击者在邮件中嵌入指令，诱导 ChatGPT 读取员工姓名、地址并尝试调用合规验证接口。通过 Safe Url，系统在检测到信息泄露风险后立即提示用户，防止了数据外泄。

展望

OpenAI 表示，未来将继续把“社会工程模型”与传统安全工程相结合，探索更细粒度的权限控制和自动化审计。随着 AI 代理功能的进一步自治，构建类似人类客服的风险管理框架，将成为保障企业和用户安全的必然路径。

行业建议

为每类工具设定明确的 最大授权额度（如退款上限、转账上限）；
在多方协作场景下，引入 双因素确认，即使模型生成指令，也必须经人工或第二层 AI 审核；
定期进行 红队演练，模拟社会工程攻击，评估防御体系的有效性。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。