找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 286|回复: 0

深度:OpenAI如何打造AI Agent防护体系 | 开发软件通过非法手段“一键搬店” 7人被采取刑事强制措施

[复制链接]
发表于 2025-7-22 09:00 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg
深度:OpenAI如何打造AI Agent防护体系


7月21日消息,OpenAI近日为ChatGPT推出了一项强大的新功能,同时也带来了众多新的安全风险与挑战。

这个名为“ChatGPT Agent”的功能是一个可选模式,ChatGPT的付费用户可通过点击提示框中的“工具”,选择“Agent模式”来启用。启用后,用户可以让ChatGPT登录邮箱或其他网页账号,撰写并回复邮件,下载、修改和创建文件,甚至执行一系列任务,几乎就像一个真人在使用他们的账号登录电脑一样,实现自动化操作。

w2.jpg

显然,这需要用户信任ChatGPT Agent不会做出任何错误行为或恶意行为,也不会泄露用户的数据或敏感信息。相比无法访问网页账号或直接修改文件的普通ChatGPT,这项新功能将会给用户及其雇主带来更大的风险。

OpenAI安全研究团队成员Keren Gu在X上评论说:“我们为ChatGPT Agent启用了最强的防护机制。这是我们首次在‘准备度框架’下将模型归类为在生物与化学领域具有‘高级能力’的系统。为什么这很重要?我们又是如何保障安全的?接下来一一讲解。”

w3.jpg

那么,OpenAI是如何应对所有这些安全问题的呢?

执行红队任务

在OpenAI发布的ChatGPT Agent系统卡片中可以看到,公司组建的“红队”承担了极具挑战性的任务:团队由16位拥有博士学位的安全研究人员组成,他们仅有40小时时间对系统进行测试。

通过系统性测试,红队发现了7条通用攻击路径,这些路径可能被用来攻击系统,暴露出AI Agent在处理现实世界交互时的关键性漏洞。

接下来,OpenAI基于红队测试进行了大量安全验证。红队网络总计上报了110次攻击,涵盖从提示注入到生物信息提取等多种形式。其中有16次攻击超出了内部风险阈值。每一次发现都为OpenAI工程师提供了关键的信息,用于问题修复,并在系统正式发布前完成部署。

最终结果清晰地展示在系统卡片中。ChatGPT Agent实现了显著的安全提升:视觉浏览器的无关指令攻击防护率达到95%,同时具备稳健的生物与化学安全防护机制。

揭示七条通用攻击路径

OpenAI的红队由16位具有生物安全博士背景的研究人员组成,在测试期间共提交了110次攻击尝试,其中16次攻击超出风险阈值,揭示了AI Agent在现实世界交互中存在的根本性漏洞。而真正的突破来自英国人工智能安全研究所(UKAISI)对ChatGPT Agent内部推理链条与策略文本的前所未有的访问权限,这是一种常规攻击者永远无法获得的情报。

在四轮测试中,UKAISI成功迫使OpenAI执行了7条通用攻击路径,这些路径有可能破坏任何一次会话。

表:迫使OpenAI做出应对的攻击向量

攻击类型

修复前成功率

目标

影响

视觉浏览器隐藏指令

33%

网页

主动数据外泄

Google Drive连接器利用

未披露

未披露

强制性文档泄露

多步骤链式攻击

非固定值

跨站操作

完整会话劫持

生物信息提取

16项超过阈值

危险知识

潜在武器化风险

FAR.AI对OpenAI所采用的方法持批评态度。尽管40小时内仅发现3个部分漏洞,但他们指出当前安全机制过于依赖推理和工具使用过程中的监控,而一旦这些监控被突破,就可能形成单点失败。

红队如何将ChatGPT Agent从漏洞修炼成堡垒

OpenAI对红队测试结果的响应,重塑了ChatGPT Agent的多个架构核心。其中一项关键改进是构建了双层安全检查系统,实时监控100%的生产流量,取得了可量化的成效。

表:根据红队发现实现的安全性提升

防护指标

原模型

ChatGPT Agent

提升度

无关指令(视觉浏览器)

82%

95%

+13%

上下文内数据外泄

75%

78%

+3%

主动数据外泄

58%

67%

+9%

系统可靠性

抽样检测

100%覆盖

全面检测

该架构具体包括:

    第一层:一个召回率为96%的快速分类器,用于标记可疑内容;

    第二层:一个召回率为84%的推理模型,对被标记内容进行威胁分析。

然而,技术防护只是安全的一部分。OpenAI还做出了一些艰难的安全决策,承认某些AI行为必须受到严格限制,才能以自动方式安全运行。

根据红队发现的漏洞,OpenAI实施了以下防御措施:

    监控模式激活:当ChatGPT Agent访问银行、邮箱等敏感场景时,如果用户切换页面,系统将立即冻结所有操作,以应对测试中发现的数据外泄攻击。

    关闭记忆功能:虽然记忆功能本是核心之一,但为了防范红队展示的逐步数据泄露攻击,该功能在发布时被完全禁用。

    限制终端访问权限:网络请求被限制为仅可执行GET请求,从而封堵了研究人员利用的命令执行漏洞。

    建立一套能够在漏洞被发现后数小时内完成修补的系统,以应对红队揭示的攻击传播速度极快的问题。

仅在发布前的测试阶段,这一系统就识别并修复了红队发现的16个关键漏洞。

生物风险警示

红队还揭示,若ChatGPT Agent被攻破,可能引发更高层级的生物安全风险。16位拥有生物安全博士学位的研究人员尝试提取危险生物信息,发现模型可综合公开文献中有关制造生物威胁的内容。

为应对红队的发现,OpenAI将ChatGPT Agent定义为在生物与化学风险领域具“高级能力”的模型。尽管未发现明确的武器化能力,但公司仍基于红队研究采取预防性机制,包括:

    安全分类器始终在线,对流量进行100%扫描;

    一个召回率为96%的主题分类器,识别生物相关内容;

    一个召回率为84%的推理监控器,识别潜在武器化意图;

    启动“生物漏洞赏金计划”,持续发现新漏洞。



OpenAI红队驱动的AI安全核心理念

红队提交的110次攻击揭示了几大规律,推动OpenAI在安全理念上进行根本性转变:

    持续性胜于强度:攻击者不需高明技术,只要有足够时间,便可通过渐进式攻击最终突破防线;

    信任边界是幻想:AI Agent能访问Google Drive、浏览网页、执行代码,传统的安全边界随之失效。红队正是利用了这些功能之间的缝隙;

    监控必须全面:抽样监测错失关键攻击,促使OpenAI改为对100%流量进行实时监控;

    响应速度决定胜负:提示注入等攻击可瞬间扩散,传统以周为单位的修复周期无效。OpenAI的机制则可在数小时内完成漏洞修补。



为企业级AI建立新的安全基线

对于需要评估AI部署的首席信息安全官(CISO)而言,红队的发现确立了几个关键要求:

    可量化的防护能力:ChatGPT Agent在已知攻击向量上达到了95%的防护率,成为新的行业基准。系统卡片中详列的测试细节对所有模型安全从业者都是必读材料。

    全面的可视性:100%流量监控从“理想”变为“必需”。OpenAI的经验显示,攻击可能隐藏在系统的任意角落。

    快速响应机制:修复漏洞的时间应以“小时”计,而非“周”。

    强制性边界控制:某些功能(如在敏感任务中访问记忆)必须在被证明安全之前持续禁用。

UKAISI的测试尤其具有启发性。尽管他们识别出的7条通用攻击已在发布前修复,但其对内部系统的深度访问,预示着未来这些漏洞极有可能被外部对手发现。

正如Keren Gu在X上所说:“这是我们准备度工作的一个关键节点。在模型达到‘高级能力’之前,准备度工作主要聚焦能力分析与防护设计。而如今,对于Agent和未来更强大的模型,准备度机制已成为运行的基础要求。”

w4.jpg

红队是打造更安全AI模型的核心力量

红队揭示的7项通用攻击路径,以及110次攻击尝试,成为ChatGPT Agent安全进化的熔炉。

他们清晰地揭示了AI Agent如何可能被武器化,促使OpenAI构建了一个以安全为核心而非附属功能的系统。

ChatGPT Agent的成果验证了红队机制的价值:可拦截95%的视觉浏览器攻击、捕捉78%的数据外泄尝试、监控每一条交互。

在这场日益加速的AI军备竞赛中,唯有那些将红队视为平台核心架构师、不断突破安全极限的公司,才能笑到最后。



开发软件通过非法手段“一键搬店” 7人被采取刑事强制措施

2025年7月20日,据上海警方报道,近日,市民王先生发现自己经营多年的餐饮店,最近竟在其他外卖平台上被完整“复制”,连菜品图片、价格都一模一样。更让他愤怒的是,这家店铺并非他的分店,而是彻头彻尾的“李鬼”,消费者发现实际菜品不一致,纷纷投诉商家。

在此期间,某外卖平台通过风控系统拦截到一些商家账号存在异常访问的情况,疑似有第三方软件恶意爬取商家数据,遂向上海市公安局闵行分局报案。

经调查,一款名为“智多星”的“一键搬店”软件逐渐浮出水面。该软件通过拦截用户流量、非法侵入服务器等手段实现“一键搬店”。

警方发现,在“一键搬运”过程中,店铺商品、图片、标签等信息将被一一复制上传,商家用于登录平台的用户名、密码等隐私信息,也会在毫不知情的情况下存储在幕后服务器中,这将严重侵害商家的数据安全,商家可能面临资金被盗、被骚扰、被诈骗等问题。

w5.jpg

而后,闵行警方赴外省多地开展集中行动,在当地警方的配合下,成功抓获一个集开发、推广、销售的黑灰产犯罪团伙。

经审讯,嫌疑人邹某向警方如实供述开发相关软件的犯罪事实,他们以“广撒网”的方式在网络平台发布广告,并以低价诱导商家购买软件,累计牟利20余万元。

闵行公安分局网安支队民警徐宁指出,表面上该软件似乎为商家提供了“便捷”开分店的方式,但实质上,商家信息会被非法收集、储存在开发者的服务器中,具有泄漏风险,甚至部分信息会被不法分子窃取后实施其他诈骗行为。另一方面,部分商家利用软件随意窃取、复制成为“李鬼”店铺,以次充好、误导消费,严重侵犯了消费者的知情权和公平交易权,扰乱了市场秩序。

目前,犯罪嫌疑人邹某等7人因涉嫌提供侵入、非法控制计算机信息系统程序、工具罪和破坏计算机信息系统罪已被闵行警方依法采取刑事强制措施,案件还在进一步侦办中。

警方提示,上海警方将持续严厉打击此类利用技术手段非法侵入计算机系统、破坏市场秩序、侵害公民信息的违法犯罪活动。广大商家应守法诚信经营,提升数据安全意识,共同维护健康有序的网络营商环境。广大消费者要提高防范意识,选择正规店铺消费,积极举报可疑线索。

声明:除发布的文章无法追溯到作者并获得授权外,我们均会注明作者和文章来源。如涉及版权问题请及时联系我们,我们会在第一时间删改,谢谢!文章来源:黑白之道、安全内参

参考资料:venturebeat.com

w6.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-9-4 23:09 , Processed in 0.123496 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表