问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

西安交大AI新突破:手机自己玩自己!

创作时间:
作者:
@小白创作中心

西安交大AI新突破:手机自己玩自己!

引用
新浪网
10
来源
1.
https://finance.sina.com.cn/tech/roll/2025-01-07/doc-ineecmqz1664014.shtml
2.
https://new.qq.com/rain/a/20241108A08NZ500
3.
https://www.qbitai.com/2024/10/214179.html
4.
https://digital.gmw.cn/2025-01/15/content_37800246.htm
5.
https://www.mittrchina.com/news/detail/14006
6.
https://ai.fenmiao.group/archives/7363.html
7.
https://www.mgetyy.com/nd.jsp?id=370
8.
http://www.perfectad.cn/zixun/586437.html
9.
https://www.xinfinite.net/t/topic/9604
10.
https://www.53ai.com/news/qianyanjishu/2024061703469.html

近日,西安交通大学智能网络与网络安全教育部重点实验室(MOE KLINNS Lab)推出了一项名为VisionTasker的创新技术,通过AI精准捕捉并解析人类意图,在移动设备上高效执行多样化任务。这项技术不仅简化了操作流程,还特别关注特殊需求群体的需求,如视障人群和老年人,帮助他们跨越数字鸿沟。

VisionTasker:让手机自己玩自己

VisionTasker方案融合了基于视觉的UI理解和LLM任务规划的两阶段框架,旨在逐步实现移动任务自动化。该方案突破了传统UI对视图层级结构的依赖,提高了对不同应用界面的适应性。值得一提的是,VisionTasker无需大量数据训练大模型,通过用户自然语言提出的任务需求,Agent便能够理解并执行指令。

具体工作流程如下:

  1. 用户界面理解:VisionTasker通过视觉方法解析和解释用户界面,Agent识别并分析界面上的元素及布局,如按钮、文本框、文字标签等,并将这些视觉信息转换为自然语言描述。
  2. 任务规划与执行:Agent利用大语言模型进行导航,根据用户指令和界面描述信息进行任务规划,将用户任务拆解为可执行的步骤,如点击或滑动操作,以自动推进任务的完成。
  3. 持续迭代:每一步完成后,Agent都会根据最新界面和历史动作更新其对话和任务规划,确保决策基于当前上下文,持续迭代直至任务完成或达到预设限制。

在实验评估方面,该项目提供了对三种UI理解的比较分析。结果显示,VisionTasker在多个维度上优于其他方法,尤其是在处理跨语言应用时表现出了良好的泛化能力。此外,在处理真实世界任务时,VisionTasker在147个不同应用中的表现达到了与人类相当的水平,甚至在某些任务中超越了人类。

手机AI自动化:从科幻到现实

手机AI自动化技术正在从科幻走向现实。vivo在2024年10月的开发者大会上推出了其手机智能体产品“PhoneGPT”,能够帮助用户实现一句话点咖啡、订外卖,甚至可以找到最近的私房菜馆并通过AI实现电话预定包厢。这些功能的实现,得益于大语言模型(LLM)在手机自动化中的应用。

LLM不仅能够理解自然语言指令,还能感知界面并执行任务,实现了更智能、自适应的自动化操作。与传统自动化方法相比,LLM具有明显优势:

  • 上下文语义理解:从大量文本语料库学习,理解复杂语言结构和领域知识,准确解析多步骤命令。
  • 屏幕GUI多模态感知:利用多模态感知能力,统一文本和视觉感知信息,实现对屏幕元素的准确定位和交互。
  • 推理和决策制定:基于语言、视觉上下文和历史交互进行复杂推理、多步骤规划和上下文感知适应,提高任务执行成功率。

AI自动化:为特殊群体插上科技翅膀

AI自动化技术的发展,为特殊需求群体带来了福音。据统计,我国特殊儿童已超1300万人。AI技术能够为这些孩子提供个性化学习方案、增强课堂互动、实时反馈评估等教育支持。在日常生活中,AI还能帮助视障儿童自主阅读电子书籍,使用智能手机进行网购、订餐等活动。

AI技术还可以通过虚拟现实(VR)和增强现实(AR)技术来模拟社交场景,帮助社交障碍人士进行社交互动,提供情绪管理支持,甚至通过智能家居设备协助完成日常生活任务。

未来展望:机遇与挑战并存

尽管AI自动化技术展现出巨大潜力,但仍面临一些挑战。例如,如何确保AI系统的安全性、隐私保护,以及如何提高设备端部署效率等。此外,AI自动化技术的普及还需要解决数据集多样性问题,以适应不同文化和语言环境。

随着技术的不断进步,AI自动化将为更多人带来便利。它不仅能够帮助普通人简化操作流程,更重要的是,它为特殊需求群体插上了科技的翅膀,帮助他们更好地融入社会,享受科技带来的红利。

西安交通大学推出的VisionTasker技术,是AI自动化领域的重要突破。它不仅展示了AI技术在移动设备上的应用潜力,更为特殊需求群体带来了新的希望。随着研究的深入和应用的推广,我们有理由相信,AI自动化将为每个人创造更加美好的生活。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号