问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

解放双手!OSCAR让操作系统交互实现自然语言「自由」

创作时间:
作者:
@小白创作中心

解放双手!OSCAR让操作系统交互实现自然语言「自由」

引用
1
来源
1.
https://www.jiqizhixin.com/articles/2025-02-03

在人工智能的宏大发展蓝图里,通用人工智能(AGI)堪称研究者们梦寐以求的「圣杯」,其终极目标是打造出像人类一样拥有广泛且灵活智能的系统,能够理解、学习并胜任几乎所有任务。在迈向这个目标的征程中,实现人工智能与数字世界的高效交互至关重要,而桌面任务UI自动化更是其中的关键赛道。

想象一下,未来我们只需轻松说出指令,电脑就能自动完成各种复杂操作,繁琐的手动操作成为历史,工作效率大幅提升,这样的场景是不是很令人期待?

去年,Anthropic发布的Computer use为AI在桌面操作领域带来了新突破。它允许开发者通过API,让Claude像人类一样操作计算机,极大拓展了AI在桌面操作领域的应用场景。

今年一月份,OpenAI重磅推出的Computer Using Agent(CUA)也备受瞩目,其赋能的Operator凭借GPT-4o的视觉能力,能够「看懂」网站并与之交互,还可在ChatGPT界面自动执行多种常规浏览器任务。

与它们采用商用API不同,今天要给大家介绍一个来自加拿大蒙特利尔大学和Mila研究所的研究团队的开源解决方案——OSCAR(Operating System Control via state-Aware reasoning and Re-planning)。

OSCAR不仅实现了桌面任务UI自动化,还在多个操作系统环境(桌面Windows、Ubuntu和智能手机Android)完成了泛化与验证。目前,该研究已被AI领域顶级会议ICLR录用。下面,就让我们深入了解一下它的创新之处。

操作系统UI交互自动化面临的挑战

基于多模态大型语言模型(MLLM)的智能体(Agent)在复杂任务自动化领域表现出色,广泛应用于网络浏览、游戏、软件开发等场景,但不同应用的观察和动作空间差异极大,导致智能体通用性差,难以适应复杂工作流。

此外,以往的UI交互智能体多在静态离线的环境中开发,靠视觉问答和预设动作路径操作,缺乏操作系统实时反馈,任务失败时无法动态自适应。在现实应用中,实时反馈和自适应调整对适应新的UI环境至关重要,比如「打开某文件并打印」有多种操作路径,可通过开始菜单搜索,也能直接导航路径,但传统智能体难以应对这种多样性。

具体构建通用UI交互智能体面临以下挑战:

  • 统一控制接口难题:智能体需熟练运用鼠标、键盘等标准输入方式,精准理解视觉信息并转化为指令,在不同应用中稳定高效操作。
  • UI定位困境:智能体要能解读屏幕信息,精准识别各类元素,如网页搜索时准确找到搜索框并正确交互,对其理解和定位能力要求高。
  • 新UI探索与重规划挑战:智能体需像人类面对陌生软件一样,具备动态探索和调整计划的能力,能处理软件崩溃等意外,依据反馈优化策略。

OSCAR的独特设计

为解决上述难题,研究团队推出OSCAR。它以代码为核心控制方式,与动态操作系统环境自主交互,创新点如下:

  • 状态机架构:OSCAR采用状态机模式,通过[Init](初始化)、[Observe](观察)、[Plan](规划)、[Execute](执行)、[Verify](验证)等状态循环,处理任务各环节。遇到问题时利用实时反馈重新规划,比传统方式效率更高、适应性更强。


OSCAR状态机

  • 视觉和语义双重UI定位:OSCAR利用Set-of-Mark(SoM)提示技术和可访问性(A11Y)树生成视觉提示,精准定位UI元素;同时添加描述性标签进行语义定位,便于把握UI布局,灵活操作元素。


OSCAR视觉和语义双重UI定位

  • 任务驱动重新规划:受计划-解决提示(plan-and-solve)启发,OSCAR将用户指令分解为子任务并逐步生成动作。收到负面反馈时,针对特定子任务重新规划,避免整体重规划,提高效率并防止错误传播。
  • 基于代码的动作:OSCAR借助生成的语义定位信息,利用元素ID或坐标引用交互元素,通过PyAutoGUI库生成控制代码,精确控制操作系统。


OSCAR任务分解与重规划

OSCAR实验验证

研究人员在GAIA、OSWorld、AndroidWorld等多个真实世界工作流自动化基准测评数据集中对OSCAR进行了评估,这些基准涵盖了不同难度和类型的任务,包括简单操作、复杂多步骤任务以及跨多种应用的任务。

  1. 基准测评成绩突出:在GAIA基准测试中,OSCAR在所有工作流复杂程度级别上都表现最佳。尤其是在最复杂的Level 3任务上,成功率达到13.5%,几乎是之前最先进方法的两倍。在OSWorld和AndroidWorld基准测评中,OSCAR同样超越其他智能体,展现出强大的适应性。


6a. GAIA基准测评


6b. OSWorld基准测评

6c. AndroidWorld基准测评

OSCAR在基准测评GAIA, OSWorld和AndroidWorld中取得最好水平

  1. 规划效率优势显著:


在成功案例中,OSCAR成功案例所需重新规划次数更少,而且每次重新规划的步骤更高效

在失败案例中,OSCAR在错误完成(FC)、达到步骤限制(RSL)和无效动作(IA)这些情况中的重新规划冗余度(RR)明显低于其他智能体系统

结语:开启操作系统交互新时代

OSCAR作为通用智能体,凭借灵活的状态机和动态的重新规划能力,在桌面和智能手机操作系统任务中展现出强大的适应性和有效性。它为自动化工作流提供了高效通用的解决方案,有望成为提升动态操作系统环境生产力的有力工具,让操作系统交互变得更加便捷、高效、易访问。而且,凭借其开源特性,未来OSCAR还将在众多开发者的共同努力下不断进化,持续助力通用人工智能与数字世界实现完美交互。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号