在直播活动中,OpenAI团队精彩地展示了Operator的几个令人难忘的应用场景:
场景一:智能餐厅预订服务
当用户输入指令“请在Beretta餐厅为我预订今晚7点的双人餐位”时,Operator迅速启动了一个远程浏览器会话。值得注意的是,该系统展现出了类似人类的地理定位智能——当OpenTable默认展示弗吉尼亚州的餐厅信息时,它根据用户预设的旧金山位置信息,立即进行了自动更正。在发现7点的座位已满后,Operator主动提出了7:45的备选时间,并在最终确认前征求了用户的意见,这体现了其灵活的应变能力。
场景二:智能购物帮手
在购物演示环节,Operator展现出了卓越的多模态理解能力。它能够直接识别并解析手写购物清单的图片,精确提取出“鸡蛋、菠菜、蘑菇、鸡腿肉、辣酱”等商品信息,并在Instacart平台上自动搜索并匹配相应的商品。Operator遵循了一个清晰明了的操作流程:首先准确理解每个商品的具体需求,然后搜索最相关的商品选项,并做出合理的数量和规格选择。当用户通过“接管控制”功能手动增加鸡蛋数量时,Operator也能够理解这一操作,并继续完成剩余的订单流程。
场景三:多任务并行执行
Operator最令人瞩目的特性之一是其多任务并行处理能力。它能够同时在StubHub上搜索勇士队的比赛门票,处理网球场的预订事宜,寻找清洁服务,以及通过DoorDash订购餐食。这得益于其远程浏览器架构,每个任务都在独立的会话中运行,确保了任务之间的互不干扰。在门票预订过程中,Operator还展现出了细致入微的判断力,能够分析不同座位区域的优劣(例如,识别出374美元的第一排座位相较于260美元的普通座位更具优势)。此外,在进行支付等敏感操作时,系统会自动切换到隐私模式,从而确保用户信息的安全性。
当前,Operator的功能尚存局限:它不支持如银行交易等高风险活动,且访问部分敏感网站时需用户持续监控。此外,其服务范围仅限于美国地区的Pro用户,欧洲等地的用户可能需要较长时间才能享受到该服务。然而,OpenAI已规划好明确的拓展蓝图:预计在两周内向开发者开放CUA模型API,并随后将其融入ChatGPT,以更广泛地提供服务。
为了提升用户体验,OpenAI已与OpenTable、Allrecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Target等众多知名品牌携手,共同挖掘AI Agent在不同垂直领域的应用前景,旨在推动AI Agent领域迈向新的发展阶段。Operator面世后,OpenAI总裁Greg Brockman迅速转发并宣称:“2025年将是AI Agents大放异彩的一年”。
在Operator亮相的同时,AI Agent领域的竞争也日益白热化。
OpenAI今年的首步战略展现出了清晰的思路:一方面,它积极与各大主流第三方平台携手,致力于在常用场景中提供卓越的用户体验;另一方面,通过API的开放和与ChatGPT的融合,既鼓励开发者创建应用,又利用这一超级应用平台触及广大用户。同时,将使用权限定于Pro用户,既保障了产品的稳定性,又试探了其他用户对于付费服务的接受度——这些举措共同为探索未来Agent经济的商业化道路奠定了坚实的基础。