深度:OpenAI如何打造AI Agent防护体系 | 开发软件通过非法手段“一键搬店” 7人被采取刑事强制措施

多客科技 · 发表于 2025-7-22 09:00

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章

深度：OpenAI如何打造AI Agent防护体系

7月21日消息，OpenAI近日为ChatGPT推出了一项强大的新功能，同时也带来了众多新的安全风险与挑战。

这个名为“ChatGPT Agent”的功能是一个可选模式，ChatGPT的付费用户可通过点击提示框中的“工具”，选择“Agent模式”来启用。启用后，用户可以让ChatGPT登录邮箱或其他网页账号，撰写并回复邮件，下载、修改和创建文件，甚至执行一系列任务，几乎就像一个真人在使用他们的账号登录电脑一样，实现自动化操作。

显然，这需要用户信任ChatGPT Agent不会做出任何错误行为或恶意行为，也不会泄露用户的数据或敏感信息。相比无法访问网页账号或直接修改文件的普通ChatGPT，这项新功能将会给用户及其雇主带来更大的风险。

OpenAI安全研究团队成员Keren Gu在X上评论说：“我们为ChatGPT Agent启用了最强的防护机制。这是我们首次在‘准备度框架’下将模型归类为在生物与化学领域具有‘高级能力’的系统。为什么这很重要？我们又是如何保障安全的？接下来一一讲解。”

那么，OpenAI是如何应对所有这些安全问题的呢？

执行红队任务

在OpenAI发布的ChatGPT Agent系统卡片中可以看到，公司组建的“红队”承担了极具挑战性的任务：团队由16位拥有博士学位的安全研究人员组成，他们仅有40小时时间对系统进行测试。

通过系统性测试，红队发现了7条通用攻击路径，这些路径可能被用来攻击系统，暴露出AI Agent在处理现实世界交互时的关键性漏洞。

接下来，OpenAI基于红队测试进行了大量安全验证。红队网络总计上报了110次攻击，涵盖从提示注入到生物信息提取等多种形式。其中有16次攻击超出了内部风险阈值。每一次发现都为OpenAI工程师提供了关键的信息，用于问题修复，并在系统正式发布前完成部署。

最终结果清晰地展示在系统卡片中。ChatGPT Agent实现了显著的安全提升：视觉浏览器的无关指令攻击防护率达到95%，同时具备稳健的生物与化学安全防护机制。

揭示七条通用攻击路径

OpenAI的红队由16位具有生物安全博士背景的研究人员组成，在测试期间共提交了110次攻击尝试，其中16次攻击超出风险阈值，揭示了AI Agent在现实世界交互中存在的根本性漏洞。而真正的突破来自英国人工智能安全研究所（UKAISI）对ChatGPT Agent内部推理链条与策略文本的前所未有的访问权限，这是一种常规攻击者永远无法获得的情报。

在四轮测试中，UKAISI成功迫使OpenAI执行了7条通用攻击路径，这些路径有可能破坏任何一次会话。

表：迫使OpenAI做出应对的攻击向量

攻击类型	修复前成功率	目标	影响
视觉浏览器隐藏指令	33%	网页	主动数据外泄
Google Drive连接器利用	未披露	未披露	强制性文档泄露
多步骤链式攻击	非固定值	跨站操作	完整会话劫持
生物信息提取	16项超过阈值	危险知识	潜在武器化风险

FAR.AI对OpenAI所采用的方法持批评态度。尽管40小时内仅发现3个部分漏洞，但他们指出当前安全机制过于依赖推理和工具使用过程中的监控，而一旦这些监控被突破，就可能形成单点失败。

红队如何将ChatGPT Agent从漏洞修炼成堡垒

OpenAI对红队测试结果的响应，重塑了ChatGPT Agent的多个架构核心。其中一项关键改进是构建了双层安全检查系统，实时监控100%的生产流量，取得了可量化的成效。

表：根据红队发现实现的安全性提升

防护指标	原模型	ChatGPT Agent	提升度
无关指令（视觉浏览器）	82%	95%	+13%
上下文内数据外泄	75%	78%	+3%
主动数据外泄	58%	67%	+9%
系统可靠性	抽样检测	100%覆盖	全面检测

该架构具体包括：

然而，技术防护只是安全的一部分。OpenAI还做出了一些艰难的安全决策，承认某些AI行为必须受到严格限制，才能以自动方式安全运行。

根据红队发现的漏洞，OpenAI实施了以下防御措施：

仅在发布前的测试阶段，这一系统就识别并修复了红队发现的16个关键漏洞。

生物风险警示

红队还揭示，若ChatGPT Agent被攻破，可能引发更高层级的生物安全风险。16位拥有生物安全博士学位的研究人员尝试提取危险生物信息，发现模型可综合公开文献中有关制造生物威胁的内容。

为应对红队的发现，OpenAI将ChatGPT Agent定义为在生物与化学风险领域具“高级能力”的模型。尽管未发现明确的武器化能力，但公司仍基于红队研究采取预防性机制，包括：

OpenAI红队驱动的AI安全核心理念

红队提交的110次攻击揭示了几大规律，推动OpenAI在安全理念上进行根本性转变：

为企业级AI建立新的安全基线

对于需要评估AI部署的首席信息安全官（CISO）而言，红队的发现确立了几个关键要求：

UKAISI的测试尤其具有启发性。尽管他们识别出的7条通用攻击已在发布前修复，但其对内部系统的深度访问，预示着未来这些漏洞极有可能被外部对手发现。

正如Keren Gu在X上所说：“这是我们准备度工作的一个关键节点。在模型达到‘高级能力’之前，准备度工作主要聚焦能力分析与防护设计。而如今，对于Agent和未来更强大的模型，准备度机制已成为运行的基础要求。”

红队是打造更安全AI模型的核心力量

红队揭示的7项通用攻击路径，以及110次攻击尝试，成为ChatGPT Agent安全进化的熔炉。

他们清晰地揭示了AI Agent如何可能被武器化，促使OpenAI构建了一个以安全为核心而非附属功能的系统。

ChatGPT Agent的成果验证了红队机制的价值：可拦截95%的视觉浏览器攻击、捕捉78%的数据外泄尝试、监控每一条交互。

在这场日益加速的AI军备竞赛中，唯有那些将红队视为平台核心架构师、不断突破安全极限的公司，才能笑到最后。

开发软件通过非法手段“一键搬店” 7人被采取刑事强制措施

2025年7月20日，据上海警方报道，近日，市民王先生发现自己经营多年的餐饮店，最近竟在其他外卖平台上被完整“复制”，连菜品图片、价格都一模一样。更让他愤怒的是，这家店铺并非他的分店，而是彻头彻尾的“李鬼”，消费者发现实际菜品不一致，纷纷投诉商家。

在此期间，某外卖平台通过风控系统拦截到一些商家账号存在异常访问的情况，疑似有第三方软件恶意爬取商家数据，遂向上海市公安局闵行分局报案。

经调查，一款名为“智多星”的“一键搬店”软件逐渐浮出水面。该软件通过拦截用户流量、非法侵入服务器等手段实现“一键搬店”。

警方发现，在“一键搬运”过程中，店铺商品、图片、标签等信息将被一一复制上传，商家用于登录平台的用户名、密码等隐私信息，也会在毫不知情的情况下存储在幕后服务器中，这将严重侵害商家的数据安全，商家可能面临资金被盗、被骚扰、被诈骗等问题。

而后，闵行警方赴外省多地开展集中行动，在当地警方的配合下，成功抓获一个集开发、推广、销售的黑灰产犯罪团伙。

经审讯，嫌疑人邹某向警方如实供述开发相关软件的犯罪事实，他们以“广撒网”的方式在网络平台发布广告，并以低价诱导商家购买软件，累计牟利20余万元。

闵行公安分局网安支队民警徐宁指出，表面上该软件似乎为商家提供了“便捷”开分店的方式，但实质上，商家信息会被非法收集、储存在开发者的服务器中，具有泄漏风险，甚至部分信息会被不法分子窃取后实施其他诈骗行为。另一方面，部分商家利用软件随意窃取、复制成为“李鬼”店铺，以次充好、误导消费，严重侵犯了消费者的知情权和公平交易权，扰乱了市场秩序。

目前，犯罪嫌疑人邹某等7人因涉嫌提供侵入、非法控制计算机信息系统程序、工具罪和破坏计算机信息系统罪已被闵行警方依法采取刑事强制措施，案件还在进一步侦办中。

警方提示，上海警方将持续严厉打击此类利用技术手段非法侵入计算机系统、破坏市场秩序、侵害公民信息的违法犯罪活动。广大商家应守法诚信经营，提升数据安全意识，共同维护健康有序的网络营商环境。广大消费者要提高防范意识，选择正规店铺消费，积极举报可疑线索。

声明：除发布的文章无法追溯到作者并获得授权外，我们均会注明作者和文章来源。如涉及版权问题请及时联系我们，我们会在第一时间删改，谢谢！文章来源：黑白之道、安全内参

参考资料：venturebeat.com

萍聚头条

深度:OpenAI如何打造AI Agent防护体系 | 开发软件通过非法手段“一键搬店” 7人被采取刑事强制措施

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

账号		自动登录	找回密码
密码			注册