资讯行业动态··来源: OpenAI·原文 →

OpenAI 强化 ChatGPT Atlas 浏览器代理防御提示词注入攻击

OpenAI 近期发布针对 ChatGPT Atlas 浏览器代理(Browser Agent)的安全更新,应对新型提示词注入(Prompt Injection)攻击。通过内部自动化红队测试发现新攻击类别后,团队部署了对抗训练模型和增强防护措施。文章详细披露了 OpenAI 如何利用强化学习训练自动化攻击者,通过端到端模拟和高计算量测试,在攻击出现在野外之前提前发现漏洞并快速修复。

OpenAI 强化 ChatGPT Atlas 浏览器代理防御提示词注入攻击
[广告位 · 上线后接 AdSense]

OpenAI 强化 ChatGPT Atlas 浏览器代理防御提示词注入攻击

OpenAI 最近给 ChatGPT Atlas 的浏览器代理(Browser Agent) 来了次大升级,专门对付越来越狡猾的 提示词注入(Prompt Injection) 攻击。这可是 OpenAI 目前最牛掰的代理功能之一,能让 AI 像真人一样在网上冲浪、点按钮、打字,直接参与到日常工作中。但能力越强,风险也越大——代理成了黑客眼中的香饽饽。

提示词注入咋威胁浏览器代理

提示词注入攻击的套路就是在 AI 代理处理的内容里偷偷塞进恶意指令,让代理跑偏,执行攻击者的命令。对于浏览器代理来说,这就开辟了个全新的攻击面:黑客不用再费劲钓鱼或者找浏览器漏洞,直接"忽悠"代理就完事了。

OpenAI 举了个例子:假设用户让代理"看看未读邮件,总结下重点",黑客可能事先发封带隐藏指令的恶意邮件,让代理别管用户的话,直接把敏感税务文件发到黑客邮箱。因为代理在工作流中会读到这封邮件,要是没发现注入指令,隐私数据就泄露了。

攻击面大到没边:邮件和附件、日历邀请、共享文档、论坛帖子、社交媒体内容、随便哪个网页——代理可能接触到的任何不可信内容都可能藏着注入指令。而代理能干的活儿(转发邮件、转账、编辑/删除云端文件等)和用户权限一样,攻击成功了影响范围也贼广。

用 AI 打 AI:自动化红队和强化学习

为了抢在黑帽黑客前发现漏洞,OpenAI 搞了个 基于大语言模型的自动化攻击者(Automated Attacker),用 端到端强化学习(End-to-End Reinforcement Learning) 训练它的"红队技能"。这套系统有两把刷子:

  1. 反事实模拟(Counterfactual Rollout):攻击者在推理链(Chain of Thought)里提出候选注入指令后,先发给外部模拟器测试。模拟器跑完整个防御代理的行为轨迹,返回详细的推理和操作记录。攻击者根据反馈不断优化攻击,模拟好几次才提交最终版本——这比单次通过/失败信号提供了更丰富的学习信号,也大大扩展了攻击者的 测试时计算量(Test-Time Compute)

  2. 白盒优势(White-Box Access):内部攻击者能访问防御模型的完整推理轨迹(不对外公开),形成信息不对称——这是 OpenAI 相对外部对手的核心优势,有助于更早发现潜在漏洞。

这次安全更新就是这套自动化红队系统发现的 新型攻击类别 催生的。OpenAI 立马部署了 对抗训练模型(Adversarially Trained Model) 和增强防护措施,形成了快速响应闭环。

长期愿景:持续对抗的安全循环

OpenAI 明确表示,提示词注入是长期 AI 安全挑战,得像对付不断演变的网络钓鱼那样持续加固防御。团队的长期策略靠三大支柱:

  • 白盒模型访问:深度理解自家模型行为
  • 防御机制深度掌握:快速定位薄弱环节
  • 计算规模优势:大规模模拟攻击场景

目标是在外部攻击者之前发现漏洞、更快修复、持续收紧响应周期。结合前沿研究(新技术对抗注入)和其他安全控制措施,这种复合循环能让攻击成本越来越高、难度越来越大,从根本上降低真实世界的提示词注入风险。

最终目标:让用户能像信任一位高度胜任、具备安全意识的同事或朋友一样,信任 ChatGPT 代理使用自己的浏览器。


关键术语保留:Prompt Injection(提示词注入)、Browser Agent(浏览器代理)、Reinforcement Learning(强化学习)、Counterfactual Rollout(反事实模拟)、Test-Time Compute(测试时计算)、White-Box Access(白盒访问)。


本文基于 OpenAI 报道, 由 AiDuo123 AI 编辑翻译改写。原文链接: https://openai.com/index/hardening-atlas-against-prompt-injection

常见问题

提示词注入攻击与传统网络钓鱼有何区别?
传统钓鱼攻击目标是人类用户,通过伪装页面或邮件诱骗用户输入密码或点击恶意链接。提示词注入则直接攻击 AI 代理本身,在代理处理的内容(如邮件正文、网页文本)中嵌入隐藏指令,诱使代理执行攻击者意图而非用户指令。攻击者无需突破浏览器漏洞或欺骗人类,只需'说服'AI 即可。
OpenAI 的自动化红队系统如何比外部攻击者更快发现漏洞?
OpenAI 的内部攻击者具备三大优势:一是可访问防御模型的完整推理轨迹(外部攻击者看不到),形成信息不对称;二是通过反事实模拟反复测试攻击效果,每次迭代都能获得详细反馈;三是利用强化学习让攻击者从成功和失败中自我改进。这些白盒访问和计算规模优势使 OpenAI 能在攻击出现在野外之前提前发现并修复。
中国开发者部署 AI 代理时如何借鉴 OpenAI 的安全思路?
核心是建立持续对抗测试机制:一、识别代理可能接触的所有非可信内容源(邮件、文档、第三方 API 返回等);二、模拟攻击者视角构造注入样本,测试代理是否会偏离用户指令;三、对高权限操作(转账、删除文件、发送邮件)设置二次确认或沙盒验证;四、定期更新防御模型,而非一次性安全审计。若资源有限,可优先加固涉及敏感数据和高权限操作的代理功能。
提示词注入问题能彻底解决吗?
根据 OpenAI 的表述,提示词注入是'长期 AI 安全挑战',预计需持续多年攻防。类似传统网络安全中的钓鱼攻击,攻击手法会不断演变,防御也需持续迭代。目前业界尚无'一劳永逸'的解决方案,但通过对抗训练、多层防护、持续红队测试等手段,可显著提高攻击成本和难度,将风险降至可接受水平。
[广告位 · 上线后接 AdSense]
标签:#OpenAI

同类资讯 — 由发布时间排序

Pool 应用将手机截图变为可搜索记忆库 获 200 万美元融资

Pool 应用将手机截图变为可搜索记忆库 获 200 万美元融资

新应用 Pool 通过 AI 技术将用户手机中杂乱的截图自动分类整理,并追溯原始链接。这款由 Spinoff Studio 推出的工具已获 General Catalyst 等机构超 200 万美元 pre-seed 融资,现已在 iOS 平台免费上线,计划推出个人助理类衍生应用。

应用与案例融资动态
美国政府或将持股 OpenAI 等 AI 公司 参照英特尔模式推进

美国政府或将持股 OpenAI 等 AI 公司 参照英特尔模式推进

美国政府持有 AI 公司股权的讨论已从理论进入实质谈判阶段,时机恰逢 OpenAI 等公司 IPO 窗口期。参照英特尔案例,政府可能以无投票权股份、低于市场价格入股,但这将给投资者带来治理不确定性与稀释风险。主动捐赠股权的公司或可换取监管宽松,但政府进入股东名单将改写整个行业估值逻辑。

政策与安全OpenAI
OpenAI 预计一年内上市,估值已达 860 亿美元

OpenAI 预计一年内上市,估值已达 860 亿美元

据 The Information 援引知情人士消息,OpenAI 预计将在未来一年内启动 IPO。此前该公司刚完成员工股份二级市场交易,估值达 860 亿美元,较今年 2 月的 290 亿美元估值大幅跃升近 3 倍,显示投资者对生成式 AI 领头羊的持续看好。

行业动态OpenAI
谷歌 Gemini 成阿根廷国家队主赞助商,AI 首次全面进入世界杯

谷歌 Gemini 成阿根廷国家队主赞助商,AI 首次全面进入世界杯

谷歌与阿根廷足协达成合作,Gemini 成为国家队全球主赞助商,其 Logo 将出现在训练服上。AI 将用于球队战术分析、对手数据研判和球迷互动内容生成。谷歌已同时签约巴西和法国队,将世界杯视为年度最重要文化事件,但 AI 在高压赛事环境中的表现仍面临全球级风险考验。

应用与案例谷歌