无需人类辅助玩转浏览器!OpenAI发布首个智能体Operator,可自主订餐、网购

2025-02-15


继上周(1月15日)ChatGPT上新Tasks功能后,今日凌晨OpenAI正式发布了首款智能体产品:Operator(预览版)。
作为开年的王炸产品,Operator相比普通的AI模型有何不同呢?
图片自主完成工作,网购、填表样样行
作为OpenAI首款真正模拟人类操作网页浏览器的AI助手,Operator能够自动完成预订旅行住宿、餐厅预约、在线购物等复杂任务。
更厉害的是,它几乎可以使用任何网站,敲键盘、滑鼠标、搜索界面,无需人类的帮忙辅助。从这一点来看,Operato的操作逻辑已经和人类没有区别。
不仅如此,系统还支持多任务并行处理,比如在某购物网站上订购马克杯的同时,也可以在另一平台预露营地。
图片个性定制,跨服多任务处理

Operator提供了个性化定制功能,允许用户针对特定网页或整个网站添加自定义命令,并将其保存在主页上。这样,用户就能实现跨聊天窗口的多任务处理,例如,在预订机票时设置首选航空公司等。

这一功能的技术核心在于Computer-Using-Agent(CUA)模型的运用,同时结合了GPT-4o的视觉识别能力和基于强化学习的高级推理能力。这使得Operator能够直接解析网页像素,无需依赖网站的API就能与网页进行交互。

当遇到问题或错误时,Operator能利用自身的推理能力进行自我纠正。如果操作出现卡顿,它还会将控制权交还给用户。

图片新产品目前状态以及未来计划
Operator目前处于早期研究预览阶段。
从现场展示来看,Operator在基础网页操作和重复性任务方面表现出色,但在处理复杂的房产搜索等任务时,成功率相对较低,尤其在处理不熟悉的UI界面和文本编辑时表现欠佳。
尽管还谈不上完美,但“这款产品是我们进军智能体领域的开始,”奥特曼在发布会中表示,“未来团队会持续改进Operator,使其更完善、更便宜、更普及,并计划在未来几周、几个月陆续推出更多AI智能体。”
正当发布会结束,OpenAI总裁Brockman便在社交媒体上公开宣布:2025 is the year of agents(2025是智能体之年)
由此可见,OpenAI势要迈向通用人工智能(AGI)的雄心壮志。
图片

目前,Operator已对订阅了200美元Pro计划的美国用户开放,并将逐步扩展至Plus、Team及Enterprise级别的用户群体。

以下是发布会对话内容的转述(已编译):

山姆·奥特曼:今天,我们将隆重推出我们的首个智能体。这是一款能够自主为你服务的AI系统,只需你赋予它一个任务,它便能帮你获取并处理你的数据。而Operator,正是我们此次推出的智能体。

Operator是一款利用云端网页浏览器来完成任务的系统。就像你日常使用网页浏览器一样,你可以输入指令、查看屏幕,而Operator则能执行这些操作,并通过控制键盘和鼠标来完成各种任务。

现在,Operator将在美国面向专业用户正式上线。不久之后,它也将登陆其他国家,不过欧洲市场可能需要稍待时日。在接下来的几个月里,我们还将向Plus用户开放Operator。但请注意,这仍是一个早期的研究预览版,未来还有很大的改进空间。我们将不断努力,使其变得更好、更实惠、更普及。我们迫不及待地想将它交到大家手中。而在接下来的几周和几个月里,我们还将陆续推出更多的智能体。接下来,请Yash为大家带来更多介绍。

Yash:今天能在这里向大家展示Operator,我感到非常激动。正如山姆所说,Operator目前仍是一个早期的研究预览版。虽然它能完成很多酷炫的任务,但偶尔也会犯错,甚至可能犯一些令人尴尬的错误。不过,接下来我们还是来一起看看Operator到底能做些什么吧。

【展示场景一:预定餐厅】

Ray:今晚7点,我想在Beretta餐厅预订一张两人桌。

Yash:在这个场景下,我指示Operator通过OpenTable在Beretta为我预订一张两人桌。这里我明确提到了OpenTable,但其实我只需简单地说预订Beretta,Operator可能就会自行通过搜索引擎找到预订的方法。

当我输入指令后,Operator迅速启动了一个完全基于云端的远程浏览器。这个浏览器此刻正在云端的某个位置运行,你瞧,它已经准备就绪了。我并没有在键盘上操作,所有的点击都是AI自动完成的。

Operator清楚OpenTable的网址,也就是opentable.com。你注意到没,这里展示了一个思维链的摘要,它访问了URL,搜索了Beretta餐厅,然后发生了一件很有趣的事:

可能是因为某些原因,Operator认为我们当前在旧金山,所以它自动将搜索范围限定在了旧金山。

看起来7点的位置已经满了,不过7点45分还有一个空位。

这时,Operator返回了搜索结果,这是一个很好的任务委托示例。当Operator需要帮助、需要协助,或者只是想与你确认某些信息时,你会收到通知。特别是当Operator与移动端集成后,你会像接收普通应用通知一样,收到它的移动通知。

图片预定餐厅场景演示
【展示场景二:智能购物】

Yash:我们尝试一些更复杂的任务如何?

山姆·奥特曼:那就让它去买杂货吧。

Yash:好的,我一直用Operator来买我所有的杂货。我很喜欢做饭,而且我一直都用Operator来买杂货。看,这是我列的购物清单。我们来看看都买了什么,鸡蛋、菠菜、蘑菇、鸡腿、还有辣椒脆。这是我上传的图片,没错吧。我现在要用Instacart来买,这也是我们经常用的平台。

Operator很快就用GPT-4o的视觉功能识别出了图片上的物品,包括鸡蛋、菠菜、蘑菇、鸡腿,而且它也知道Gus's market这个超市。

如果你只是说帮我买这些杂货,但没有指定Instacart,它会怎么做呢?它会像我们一样,使用搜索引擎进行搜索,找到Instacart,或者Gus's market的官网,或者搜索引擎上的其他相关信息。然后它会浏览这些网站,如果需要进一步的信息,它会问你问题,然后继续进行购买。

Ray:我们在OpenAI训练了一个模型,叫Computer Use Agent,简称CUA。这个模型能够像人类一样使用和控制计算机,只需要看屏幕,然后用鼠标和键盘进行操作。以前,如果你想在没有CUA的情况下构建一个像Operator这样的东西,你需要使用一些专门的API。比如,如果你想让你的模型从Instacart买东西,你需要先弄清楚Instacart是否有API,这个API是否具备你需要的所有功能,然后你还需要为你的模型提供这个API的规范。但是,如果你的网站(像大多数网站一样)没有API,那你就无计可施了。这就是CUA的用武之地,它教会了模型如何使用我们日常使用的那些基本界面。

Ray:这就是这个研究项目的价值所在。它旨在消除我们在通往通用人工智能(AGI)道路上的一个障碍,让我们的智能体能够在数字世界中自由移动和行动。

图片
智能购物场景演示
【展示场景三:多任务并行处理】
Yash:接下来,我们去订湖人比赛的门票吧!
Ray:你能给我们买四张票吗?
Yash:是勇士队的比赛,不是湖人队的比赛。
Ray:但请给我们几个选择。
Yash:所以有 StubHub、Target、Etsy 以及所有垂直领域。但是,Operator实际上不受这些应用程序的限制。您可以使用几乎任何网站的Operator。这里出现了问题,让我们尝试修复它。
它是一个远程浏览器可以执行很多操作。这样做的好处之一是,您可以并行执行很多任务。澳大利亚网球公开赛正在进行中,我从中获得了很大的启发。你们看了四分之一决赛吗?
Ray: 你能看看圣玛丽是否有场地和空闲时间吗?
Yash: 我说圣玛丽是因为我住在布鲁内尔高地,那里离得挺近的。同时,在它进行的时候,我们还可以并行处理其他任务。
Ray: 你能帮我找下周的清洁工吗,拜托?
Yash: 我有点想吃披萨,所以我们这次用DoorDash。你能帮我们点吗?
Yash:就像和一个真人说话一样。我是在自言自语,然后再把它打出来。哇,所有的座位都很棒。我知道;我为什么会认为374比262好呢?
Ray: 就选214区,第一排。
图片多任务并行处理演示

Casey:当Operator要执行具有实际影响的任务时,它会回来请求我们的确认。这是我们首次在现实世界中部署的智能体,因此,我们对其安全性进行了深思熟虑。我们思考这个问题的框架主要围绕“不对齐”这一概念。

如果用户与我们的目标不一致怎么办?

他们可能会要求我们执行有害的任务,比如购买武器等。但幸运的是,我们已经与ChatGPT合作,引入了许多相同的缓解措施来应对这些问题。

我们明确拒绝执行有害任务,包括那些可能使智能体行为有害的任务。我们设有审核模型、事后检测机制,以及被屏蔽的网站列表等安全措施。这些缓解措施共同构成了我们的安全防线,逐步降低风险,确保我们可以安全地部署Operator。

另外,如果网站与我们的目标不一致怎么办?

也许网站是欺诈性的,或者是假冒的,甚至发出恶意指令。

我们显然不会执行这些指令。我们会尽量避免执行这些有害指令,并在必要时启动额外的安全层——“提示注入监视器”。它就像一种防病毒软件,监视Operator的行为轨迹,一旦发现可疑之处就会立即暂停执行。

我们对我们的安全措施感到满意,但安全是一个持续的过程。我们无法预测所有潜在风险,因此我们希望从这次部署中学习并不断改进我们的缓解措施。

Yash:这也是我们选择从小规模开始部署的原因之一。我们希望通过迭代和收集反馈来不断完善Operator,并逐步推广给更多用户。

Ray:我们可以通过一些基准测试来量化Operator的当前表现。首先,我们来看OSworld测试。这个测试评估了人工智能代理在Linux等常见操作系统中的导航能力。CUA在这个任务中的得分是38.1%,高于其他公开发布的结果。但人类在这个任务中的表现是72.4%,所以我们还有很大的提升空间。

接下来,我们看WebArena测试。这个测试评估了人工智能代理在常见网站上的导航能力,如电子商务网站或社交论坛等。CUA在这个任务中的得分是58.1%,同样高于其他公开发布的结果,但仍然低于人类的表现。

Yash:虽然Operator主要使用浏览器进行操作,但这个模型也可以在其他操作系统(如Ubuntu、Mac等)上运行,用于操作电脑。

Operator的价值在于它可以协助我们完成许多原本需要自己完成的任务。它可以与我们共同努力取得很大进展。虽然它现在还处于早期阶段,有时可能会遇到问题,但你可以随时回来帮助它。随着时间的推移,它会变得越来越好。

山姆·奥特曼:能够发布这个产品真是太令人兴奋了。虽然它还处于早期阶段,但我们在这一领域有着悠久而辉煌的历史。许多早期的研究预览最终都发展成为了人们真正喜爱的产品。


分享