AI Trends HUB

无需人类辅助玩转浏览器！OpenAI发布首个智能体Operator，可自主订餐、网购

2025-02-15

继上周（1月15日）ChatGPT上新Tasks功能后，今日凌晨OpenAI正式发布了首款智能体产品：Operator（预览版）。

作为开年的王炸产品，Operator相比普通的AI模型有何不同呢？

自主完成工作，网购、填表样样行

作为OpenAI首款真正模拟人类操作网页浏览器的AI助手，Operator能够自动完成预订旅行住宿、餐厅预约、在线购物等复杂任务。

更厉害的是，它几乎可以使用任何网站，敲键盘、滑鼠标、搜索界面，无需人类的帮忙辅助。从这一点来看，Operato的操作逻辑已经和人类没有区别。

不仅如此，系统还支持多任务并行处理，比如在某购物网站上订购马克杯的同时，也可以在另一平台预订露营地。

个性定制，跨服多任务处理

Operator提供了个性化定制功能，允许用户针对特定网页或整个网站添加自定义命令，并将其保存在主页上。这样，用户就能实现跨聊天窗口的多任务处理，例如，在预订机票时设置首选航空公司等。

这一功能的技术核心在于Computer-Using-Agent（CUA）模型的运用，同时结合了GPT-4o的视觉识别能力和基于强化学习的高级推理能力。这使得Operator能够直接解析网页像素，无需依赖网站的API就能与网页进行交互。

当遇到问题或错误时，Operator能利用自身的推理能力进行自我纠正。如果操作出现卡顿，它还会将控制权交还给用户。

新产品目前状态以及未来计划

Operator目前处于早期研究预览阶段。

从现场展示来看，Operator在基础网页操作和重复性任务方面表现出色，但在处理复杂的房产搜索等任务时，成功率相对较低，尤其在处理不熟悉的UI界面和文本编辑时表现欠佳。

尽管还谈不上完美，但“这款产品是我们进军智能体领域的开始，”奥特曼在发布会中表示，“未来团队会持续改进Operator，使其更完善、更便宜、更普及，并计划在未来几周、几个月陆续推出更多AI智能体。”

正当发布会结束，OpenAI总裁Brockman便在社交媒体上公开宣布：2025 is the year of agents（2025是智能体之年）。

由此可见，OpenAI势要迈向通用人工智能（AGI）的雄心壮志。

目前，Operator已对订阅了200美元Pro计划的美国用户开放，并将逐步扩展至Plus、Team及Enterprise级别的用户群体。

以下是发布会对话内容的转述（已编译）：

山姆·奥特曼：今天，我们将隆重推出我们的首个智能体。这是一款能够自主为你服务的AI系统，只需你赋予它一个任务，它便能帮你获取并处理你的数据。而Operator，正是我们此次推出的智能体。

Operator是一款利用云端网页浏览器来完成任务的系统。就像你日常使用网页浏览器一样，你可以输入指令、查看屏幕，而Operator则能执行这些操作，并通过控制键盘和鼠标来完成各种任务。

现在，Operator将在美国面向专业用户正式上线。不久之后，它也将登陆其他国家，不过欧洲市场可能需要稍待时日。在接下来的几个月里，我们还将向Plus用户开放Operator。但请注意，这仍是一个早期的研究预览版，未来还有很大的改进空间。我们将不断努力，使其变得更好、更实惠、更普及。我们迫不及待地想将它交到大家手中。而在接下来的几周和几个月里，我们还将陆续推出更多的智能体。接下来，请Yash为大家带来更多介绍。

Yash：今天能在这里向大家展示Operator，我感到非常激动。正如山姆所说，Operator目前仍是一个早期的研究预览版。虽然它能完成很多酷炫的任务，但偶尔也会犯错，甚至可能犯一些令人尴尬的错误。不过，接下来我们还是来一起看看Operator到底能做些什么吧。

【展示场景一：预定餐厅】

Ray：今晚7点，我想在Beretta餐厅预订一张两人桌。

Yash：在这个场景下，我指示Operator通过OpenTable在Beretta为我预订一张两人桌。这里我明确提到了OpenTable，但其实我只需简单地说预订Beretta，Operator可能就会自行通过搜索引擎找到预订的方法。

当我输入指令后，Operator迅速启动了一个完全基于云端的远程浏览器。这个浏览器此刻正在云端的某个位置运行，你瞧，它已经准备就绪了。我并没有在键盘上操作，所有的点击都是AI自动完成的。

Operator清楚OpenTable的网址，也就是opentable.com。你注意到没，这里展示了一个思维链的摘要，它访问了URL，搜索了Beretta餐厅，然后发生了一件很有趣的事：

可能是因为某些原因，Operator认为我们当前在旧金山，所以它自动将搜索范围限定在了旧金山。

看起来7点的位置已经满了，不过7点45分还有一个空位。

这时，Operator返回了搜索结果，这是一个很好的任务委托示例。当Operator需要帮助、需要协助，或者只是想与你确认某些信息时，你会收到通知。特别是当Operator与移动端集成后，你会像接收普通应用通知一样，收到它的移动通知。

预定餐厅场景演示

【展示场景二：智能购物】

Yash：我们尝试一些更复杂的任务如何？

山姆·奥特曼：那就让它去买杂货吧。

Yash：好的，我一直用Operator来买我所有的杂货。我很喜欢做饭，而且我一直都用Operator来买杂货。看，这是我列的购物清单。我们来看看都买了什么，鸡蛋、菠菜、蘑菇、鸡腿、还有辣椒脆。这是我上传的图片，没错吧。我现在要用Instacart来买，这也是我们经常用的平台。

Operator很快就用GPT-4o的视觉功能识别出了图片上的物品，包括鸡蛋、菠菜、蘑菇、鸡腿，而且它也知道Gus's market这个超市。

如果你只是说帮我买这些杂货，但没有指定Instacart，它会怎么做呢？它会像我们一样，使用搜索引擎进行搜索，找到Instacart，或者Gus's market的官网，或者搜索引擎上的其他相关信息。然后它会浏览这些网站，如果需要进一步的信息，它会问你问题，然后继续进行购买。

Ray：我们在OpenAI训练了一个模型，叫Computer Use Agent，简称CUA。这个模型能够像人类一样使用和控制计算机，只需要看屏幕，然后用鼠标和键盘进行操作。以前，如果你想在没有CUA的情况下构建一个像Operator这样的东西，你需要使用一些专门的API。比如，如果你想让你的模型从Instacart买东西，你需要先弄清楚Instacart是否有API，这个API是否具备你需要的所有功能，然后你还需要为你的模型提供这个API的规范。但是，如果你的网站（像大多数网站一样）没有API，那你就无计可施了。这就是CUA的用武之地，它教会了模型如何使用我们日常使用的那些基本界面。

Ray：这就是这个研究项目的价值所在。它旨在消除我们在通往通用人工智能（AGI）道路上的一个障碍，让我们的智能体能够在数字世界中自由移动和行动。

智能购物场景演示

【展示场景三：多任务并行处理】

Yash：接下来，我们去订湖人比赛的门票吧！

Ray：你能给我们买四张票吗？

Yash：是勇士队的比赛，不是湖人队的比赛。

Ray：但请给我们几个选择。

Yash：所以有 StubHub、Target、Etsy 以及所有垂直领域。但是，Operator实际上不受这些应用程序的限制。您可以使用几乎任何网站的Operator。这里出现了问题，让我们尝试修复它。

它是一个远程浏览器可以执行很多操作。这样做的好处之一是，您可以并行执行很多任务。澳大利亚网球公开赛正在进行中，我从中获得了很大的启发。你们看了四分之一决赛吗？

Ray：你能看看圣玛丽是否有场地和空闲时间吗？

Yash：我说圣玛丽是因为我住在布鲁内尔高地，那里离得挺近的。同时，在它进行的时候，我们还可以并行处理其他任务。

Ray：你能帮我找下周的清洁工吗，拜托？

Yash：我有点想吃披萨，所以我们这次用DoorDash。你能帮我们点吗？

Yash：就像和一个真人说话一样。我是在自言自语，然后再把它打出来。哇，所有的座位都很棒。我知道；我为什么会认为374比262好呢？

Ray：就选214区，第一排。

多任务并行处理演示

Casey：当Operator要执行具有实际影响的任务时，它会回来请求我们的确认。这是我们首次在现实世界中部署的智能体，因此，我们对其安全性进行了深思熟虑。我们思考这个问题的框架主要围绕“不对齐”这一概念。

如果用户与我们的目标不一致怎么办？

他们可能会要求我们执行有害的任务，比如购买武器等。但幸运的是，我们已经与ChatGPT合作，引入了许多相同的缓解措施来应对这些问题。

我们明确拒绝执行有害任务，包括那些可能使智能体行为有害的任务。我们设有审核模型、事后检测机制，以及被屏蔽的网站列表等安全措施。这些缓解措施共同构成了我们的安全防线，逐步降低风险，确保我们可以安全地部署Operator。

另外，如果网站与我们的目标不一致怎么办？

也许网站是欺诈性的，或者是假冒的，甚至发出恶意指令。

我们显然不会执行这些指令。我们会尽量避免执行这些有害指令，并在必要时启动额外的安全层——“提示注入监视器”。它就像一种防病毒软件，监视Operator的行为轨迹，一旦发现可疑之处就会立即暂停执行。

我们对我们的安全措施感到满意，但安全是一个持续的过程。我们无法预测所有潜在风险，因此我们希望从这次部署中学习并不断改进我们的缓解措施。

Yash：这也是我们选择从小规模开始部署的原因之一。我们希望通过迭代和收集反馈来不断完善Operator，并逐步推广给更多用户。

Ray：我们可以通过一些基准测试来量化Operator的当前表现。首先，我们来看OSworld测试。这个测试评估了人工智能代理在Linux等常见操作系统中的导航能力。CUA在这个任务中的得分是38.1%，高于其他公开发布的结果。但人类在这个任务中的表现是72.4%，所以我们还有很大的提升空间。

接下来，我们看WebArena测试。这个测试评估了人工智能代理在常见网站上的导航能力，如电子商务网站或社交论坛等。CUA在这个任务中的得分是58.1%，同样高于其他公开发布的结果，但仍然低于人类的表现。

Yash：虽然Operator主要使用浏览器进行操作，但这个模型也可以在其他操作系统（如Ubuntu、Mac等）上运行，用于操作电脑。

Operator的价值在于它可以协助我们完成许多原本需要自己完成的任务。它可以与我们共同努力取得很大进展。虽然它现在还处于早期阶段，有时可能会遇到问题，但你可以随时回来帮助它。随着时间的推移，它会变得越来越好。

山姆·奥特曼：能够发布这个产品真是太令人兴奋了。虽然它还处于早期阶段，但我们在这一领域有着悠久而辉煌的历史。许多早期的研究预览最终都发展成为了人们真正喜爱的产品。