可联网自主完成任务!OpenAI发布智能体Operator,给AI Agent又添了把火!

2025-02-15


图片
作者Jessica
邮箱Jessica@pingwest.com
AI Agent现在究竟有多火?2025刚开年,OpenAI已迫不及待入局。
今天凌晨,Sam Altman在毫无预告的情况下开启直播,正式发布了OpenAI首款智能体产品:Operator(预览版)
图片
Operator是一个能够像人类一样使用计算机的AI智能体。它基于OpenAI最新研发的 Computer-Using Agent (CUA) 模型,通过观察屏幕并使用虚拟鼠标和键盘来完成任务,而无需依赖专门的API接口。这种设计使其可以适配任何为人类设计的软件界面,带来极高的灵活性。
技术实现上,CUA采用了一个精心设计的感知-推理-行动循环。具体的工作原理是:每次行动后,它会重新捕获屏幕画面,先将屏幕截图添加到模型上下文,通过GPT-4o的视觉能力准确理解界面内容,再依靠强化学习的推理能力(chain-of-thought)制定下一步计划,最后使用虚拟鼠标和键盘,精确执行点击、滚动或输入的界面操作,直到任务完成或需要用户输入。
图片
也就是说,无论订餐、买票、网上购物、还是预约清洁工,只需下达一句指令,Operator都能自动在后台替你完成。
只不过目前的预览版尚未全面开放,仅供每月付费200美元的美国Pro用户体验,地址在:https://operator.chatgpt.com/。
1
Operator实例展示:灵活智能的多任务助手

在直播活动中,OpenAI团队精彩地展示了Operator的几个令人难忘的应用场景:

场景一:智能餐厅预订服务

当用户输入指令“请在Beretta餐厅为我预订今晚7点的双人餐位”时,Operator迅速启动了一个远程浏览器会话。值得注意的是,该系统展现出了类似人类的地理定位智能——当OpenTable默认展示弗吉尼亚州的餐厅信息时,它根据用户预设的旧金山位置信息,立即进行了自动更正。在发现7点的座位已满后,Operator主动提出了7:45的备选时间,并在最终确认前征求了用户的意见,这体现了其灵活的应变能力。

场景二:智能购物帮手

在购物演示环节,Operator展现出了卓越的多模态理解能力。它能够直接识别并解析手写购物清单的图片,精确提取出“鸡蛋、菠菜、蘑菇、鸡腿肉、辣酱”等商品信息,并在Instacart平台上自动搜索并匹配相应的商品。Operator遵循了一个清晰明了的操作流程:首先准确理解每个商品的具体需求,然后搜索最相关的商品选项,并做出合理的数量和规格选择。当用户通过“接管控制”功能手动增加鸡蛋数量时,Operator也能够理解这一操作,并继续完成剩余的订单流程。

场景三:多任务并行执行

Operator最令人瞩目的特性之一是其多任务并行处理能力。它能够同时在StubHub上搜索勇士队的比赛门票,处理网球场的预订事宜,寻找清洁服务,以及通过DoorDash订购餐食。这得益于其远程浏览器架构,每个任务都在独立的会话中运行,确保了任务之间的互不干扰。在门票预订过程中,Operator还展现出了细致入微的判断力,能够分析不同座位区域的优劣(例如,识别出374美元的第一排座位相较于260美元的普通座位更具优势)。此外,在进行支付等敏感操作时,系统会自动切换到隐私模式,从而确保用户信息的安全性。

1
性能表现
CUA在多项基准测试中展现出了出色的表现:在WebArena测试(评估网页导航能力)中,它取得了58.1%的成功率;而在WebVoyager网页任务评测上,更是获得了高达87%的优异成绩。尽管在操作系统导航测试OSWorld中,CUA的38.1%成功率与人类表现(72.4%)相比仍有一定差距,但它已经超越了其他已公开发布的结果。官方指出,这些数据有力地证明了CUA在处理网页任务方面已经达到了实用标准,但在应对复杂的操作系统交互时,仍有待进一步提升。
图片
1
多层保护机制确保安全
安全性是Operator的另一大注重点。为确保实际操作可控,Operator构建了全面的多层保护体系,包括:
  • 用户确认机制:关键操作前必须获得用户批准
  • 实时监控:自动检测和预防可疑行为
  • 网站限制:预设黑名单,阻止访问违规网站
  • 隐私保护:敏感操作自动切换隐私模式
  • 用户控制:"take control"功能确保用户可随时接管操作权限
1
“2025是AI Agents之年”

当前,Operator的功能尚存局限:它不支持如银行交易等高风险活动,且访问部分敏感网站时需用户持续监控。此外,其服务范围仅限于美国地区的Pro用户,欧洲等地的用户可能需要较长时间才能享受到该服务。然而,OpenAI已规划好明确的拓展蓝图:预计在两周内向开发者开放CUA模型API,并随后将其融入ChatGPT,以更广泛地提供服务。

为了提升用户体验,OpenAI已与OpenTable、Allrecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Target等众多知名品牌携手,共同挖掘AI Agent在不同垂直领域的应用前景,旨在推动AI Agent领域迈向新的发展阶段。Operator面世后,OpenAI总裁Greg Brockman迅速转发并宣称:“2025年将是AI Agents大放异彩的一年”。

图片

在Operator亮相的同时,AI Agent领域的竞争也日益白热化。

OpenAI今年的首步战略展现出了清晰的思路:一方面,它积极与各大主流第三方平台携手,致力于在常用场景中提供卓越的用户体验;另一方面,通过API的开放和与ChatGPT的融合,既鼓励开发者创建应用,又利用这一超级应用平台触及广大用户。同时,将使用权限定于Pro用户,既保障了产品的稳定性,又试探了其他用户对于付费服务的接受度——这些举措共同为探索未来Agent经济的商业化道路奠定了坚实的基础。


分享