萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 145|回复: 0

OpenAI推出首个系统操作员Operator,自主执行AI来了!

[复制链接]
发表于 2025-1-24 08:32 | 显示全部楼层 |阅读模式
作者:微信文章


就在前两周,OpenAI 发布 Tasks 功能时,OpenAI发布首款Agent产品Tasks,智能体又上升一个level,很多人并未意识到它其实是一个重要信号,OpenAI 的 Agent 技术正在悄然改变我们的生活与工作方式。

今天凌晨,OpenAI 推出了 Operator,标志着 OpenAI 正式进入“AGI 五大等级”的第3个 level,一个真正的数字助手正在尝试着走进我们的生活和工作,人类与 AI 的交互方式正在发生质的改变。

01 Operator 是什么

Operator 是一个具备搜索查询信息,自主执行我们交代任务的数字助手,不过目前仅在 web 端可用,由于成本等安全问题,目前只有美国 pro 用户可用,之后将扩展到  Plus、Team 和 Enterprise 用户,并在未来将这些功能集成到 ChatGPT 中。



Operator 能借助专属浏览器为用户执行各类任务,目前处于研究预览阶段。它就像一个不知疲倦的线上打工人,无论是在海量信息中查找资料,还是在各大平台完成繁琐的操作,都能轻松应对。

比如,你只需告诉它, “Find and book me the highest rated one-day tour of Rome on Tripadvisor.”,它就会立即在 TripAdvisor 网站上搜索罗马评分最高的一日游项目,筛选出合适的选项并提供详细信息。

除此之外,Operator 还可以被要求处理各种重复的浏览器任务,例如填写表格、订购杂货,甚至创建表情包。能够使用与人类日常交互相同的界面和工具扩大了 AI 的实用性,帮助人们节省日常任务的时间,同时在企业方面也新增了更多的机会。

02 Operator 工作原理

Operator 背后的 “大脑” 是名为 Computer-Using Agent(CUA)的新模型。CUA 融合了 GPT-4o 的视觉能力与强化学习的先进推理技术,专门针对图形用户界面(GUIs)进行训练,也就是我们日常在屏幕上看到的按钮、菜单和文本框等元素。



CUA 赋予 Operator 以下几个关键能力:


    感知(Perception):Operator能够通过屏幕截图和视觉分析功能,实时感知当前的操作界面,并准确理解页面元素的功能和内容。每次操作后,它都会重新捕获屏幕画面,将新的上下文信息纳入任务规划。

    推理(Reasoning):Operator通过强化学习的高级推理能力,分析用户指令和界面内容,制定最优的操作路径。它能够处理任务中出现的意外情况,例如按钮位置的改变或页面加载错误。

    行动(Action):Operator模拟人类的鼠标和键盘操作,与界面进行交互,包括点击、滚动、输入文本等。它可以精准地完成复杂的多步骤任务。

    反馈循环(Feedback Loop):Operator在执行过程中会根据用户的反馈动态调整任务路径,确保操作结果更加符合预期。


通过感知-推理-行动的循环,Operator 能够高效地完成任务,并在需要时灵活适应变化。

也就是说,Operator 通过截取网页截图来 “看” 网页内容,利用鼠标和键盘操作模拟 “交互”,无需定制 API 集成就能在网页上自由行动。遇到难题或犯错时,Operator 能运用推理能力自我修正;碰到需要用户介入的情况,比如登录、输入支付信息或解决验证码问题,它会主动将控制权交还给用户,确保整个交互过程顺畅且协作性强。

虽然 CUA 尚处发展初期,但在 WebArena 和 WebVoyager 这两个关键浏览器使用基准测试中,已取得了领先成果。





03 Operator 与 Computer Use 区别

就在去年10月份,Claude 公司也推出了类似 Operator 的 Computer Use,不过,Computer Use 适用于较简单的任务,例如整理本地文件或操作特定的网页,而Operator 更适合动态、多变的场景,例如在线购物、报销单提交或跨应用的数据迁移等相对复杂场景。



例如,在处理“员工差旅费报销”场景时,Operator 能自动登录财务系统核对预算、扫描发票真伪、生成会计分录,而 Computer Use 目前更多适用于“帮我在XX网站订机票”这类单平台操作。

不过,Computer Use 已经过去3个月,在这样你追我赶的背景下,相信不久,Claude 公司将会发布会新的 Agent 产品。

04 OpenAI 的下一步

OpenAI 对 Operator 有着清晰的规划。短期内,计划将 CUA 模型接入 API,让开发者能够基于它打造个性化的计算机使用代理,进一步丰富 AI 应用生态。

在功能优化上,团队会持续提升 Operator 处理复杂、长流程任务的能力,使其能更好地满足用户多样化的需求。长期来看,OpenAI 打算在确保安全性和可用性的前提下,将 Operator 推广至 Plus、Team 和 Enterprise 用户,并直接集成到 ChatGPT 中,实现实时、异步任务的无缝执行,让用户在使用 ChatGPT 时就能轻松调用 Operator 的强大功能。

根据官方透露的技术路线图,Operator 将在三个方向持续进化:


    多模态升级:Q3将支持直接解析CAD图纸、工业传感器数据流

    企业定制化:推出行业专用套件(医疗版已进入FDA认证阶段)

    生态开放:9月上线开发者平台,允许企业自建专用工具链


更值得关注的是其“AI员工编制”系统的专利布局,通过Operator 集群管理,未来企业可配置“AI财务总监+AI供应链经理+AI客服主管”的数字化团队,人类管理者只需进行战略级决策。

Last but not least

当 AI 从“工具使用者”进化为“系统操作者”,Operator 带来的不仅是效率提升,更是组织架构的重构。

其内置的联邦学习机制,让不同企业的 Operator 能在保护数据隐私的前提下共享经验,这或许意味着,人类即将见证首个跨行业协同进化的 AI 物种诞生。




关注公众号,用极客视角洞察未来!



往期精彩文章推荐:

1.截至目前,2025年最热门的5个 AI Agent 开源项目!

2.深度研究ChatGPT对劳动力市场的影响丨大规模调查18000人

3.为什么说MCP协议的价值被远远被低估?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-1-24 14:20 , Processed in 0.058394 second(s), 16 queries , MemCached On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表