问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

西安交大AI新突破：手机自己玩自己！

创作时间:

作者:

@小白创作中心

西安交大AI新突破：手机自己玩自己！

引用

新浪网

等

10

来源

1.

https://finance.sina.com.cn/tech/roll/2025-01-07/doc-ineecmqz1664014.shtml

2.

https://new.qq.com/rain/a/20241108A08NZ500

3.

https://www.qbitai.com/2024/10/214179.html

4.

https://digital.gmw.cn/2025-01/15/content_37800246.htm

5.

https://www.mittrchina.com/news/detail/14006

6.

https://ai.fenmiao.group/archives/7363.html

7.

https://www.mgetyy.com/nd.jsp?id=370

8.

http://www.perfectad.cn/zixun/586437.html

9.

https://www.xinfinite.net/t/topic/9604

10.

https://www.53ai.com/news/qianyanjishu/2024061703469.html

近日，西安交通大学智能网络与网络安全教育部重点实验室（MOE KLINNS Lab）推出了一项名为VisionTasker的创新技术，通过AI精准捕捉并解析人类意图，在移动设备上高效执行多样化任务。这项技术不仅简化了操作流程，还特别关注特殊需求群体的需求，如视障人群和老年人，帮助他们跨越数字鸿沟。

VisionTasker：让手机自己玩自己

VisionTasker方案融合了基于视觉的UI理解和LLM任务规划的两阶段框架，旨在逐步实现移动任务自动化。该方案突破了传统UI对视图层级结构的依赖，提高了对不同应用界面的适应性。值得一提的是，VisionTasker无需大量数据训练大模型，通过用户自然语言提出的任务需求，Agent便能够理解并执行指令。

具体工作流程如下：

用户界面理解：VisionTasker通过视觉方法解析和解释用户界面，Agent识别并分析界面上的元素及布局，如按钮、文本框、文字标签等，并将这些视觉信息转换为自然语言描述。
任务规划与执行：Agent利用大语言模型进行导航，根据用户指令和界面描述信息进行任务规划，将用户任务拆解为可执行的步骤，如点击或滑动操作，以自动推进任务的完成。
持续迭代：每一步完成后，Agent都会根据最新界面和历史动作更新其对话和任务规划，确保决策基于当前上下文，持续迭代直至任务完成或达到预设限制。

在实验评估方面，该项目提供了对三种UI理解的比较分析。结果显示，VisionTasker在多个维度上优于其他方法，尤其是在处理跨语言应用时表现出了良好的泛化能力。此外，在处理真实世界任务时，VisionTasker在147个不同应用中的表现达到了与人类相当的水平，甚至在某些任务中超越了人类。

手机AI自动化：从科幻到现实

手机AI自动化技术正在从科幻走向现实。vivo在2024年10月的开发者大会上推出了其手机智能体产品“PhoneGPT”，能够帮助用户实现一句话点咖啡、订外卖，甚至可以找到最近的私房菜馆并通过AI实现电话预定包厢。这些功能的实现，得益于大语言模型（LLM）在手机自动化中的应用。

LLM不仅能够理解自然语言指令，还能感知界面并执行任务，实现了更智能、自适应的自动化操作。与传统自动化方法相比，LLM具有明显优势：

上下文语义理解：从大量文本语料库学习，理解复杂语言结构和领域知识，准确解析多步骤命令。
屏幕GUI多模态感知：利用多模态感知能力，统一文本和视觉感知信息，实现对屏幕元素的准确定位和交互。
推理和决策制定：基于语言、视觉上下文和历史交互进行复杂推理、多步骤规划和上下文感知适应，提高任务执行成功率。

AI自动化：为特殊群体插上科技翅膀

AI自动化技术的发展，为特殊需求群体带来了福音。据统计，我国特殊儿童已超1300万人。AI技术能够为这些孩子提供个性化学习方案、增强课堂互动、实时反馈评估等教育支持。在日常生活中，AI还能帮助视障儿童自主阅读电子书籍，使用智能手机进行网购、订餐等活动。

AI技术还可以通过虚拟现实(VR)和增强现实(AR)技术来模拟社交场景，帮助社交障碍人士进行社交互动，提供情绪管理支持，甚至通过智能家居设备协助完成日常生活任务。

未来展望：机遇与挑战并存

尽管AI自动化技术展现出巨大潜力，但仍面临一些挑战。例如，如何确保AI系统的安全性、隐私保护，以及如何提高设备端部署效率等。此外，AI自动化技术的普及还需要解决数据集多样性问题，以适应不同文化和语言环境。

随着技术的不断进步，AI自动化将为更多人带来便利。它不仅能够帮助普通人简化操作流程，更重要的是，它为特殊需求群体插上了科技的翅膀，帮助他们更好地融入社会，享受科技带来的红利。

西安交通大学推出的VisionTasker技术，是AI自动化领域的重要突破。它不仅展示了AI技术在移动设备上的应用潜力，更为特殊需求群体带来了新的希望。随着研究的深入和应用的推广，我们有理由相信，AI自动化将为每个人创造更加美好的生活。

热门推荐

针灸和艾灸哪个效果好

针灸和艾灸哪个效果好

居家收纳妙招全解析：工具推荐与创意技巧提升家庭整洁

居家收纳妙招全解析：工具推荐与创意技巧提升家庭整洁

个人法律顾问的职业要求

个人法律顾问的职业要求

巴图姆创赛季新高，快船主场力克尼克斯

巴图姆创赛季新高，快船主场力克尼克斯

经常流鼻血？中医这样治疗

经常流鼻血？中医这样治疗

公务员有职级并行，事业管理岗实行等级晋升制度，专技岗怎么办？

公务员有职级并行，事业管理岗实行等级晋升制度，专技岗怎么办？

手腕韧带伤了吃什么食物好得快

手腕韧带伤了吃什么食物好得快

转基因油有危害，真的吗？

转基因油有危害，真的吗？

数字化运维体系：重塑IT运维的未来面貌

数字化运维体系：重塑IT运维的未来面貌

数字“三”的丰富内涵与广泛应用：生活中的文化、语言与艺术象征

数字“三”的丰富内涵与广泛应用：生活中的文化、语言与艺术象征

功效最全的纯露：揭开美容护肤行业的科学面纱

功效最全的纯露：揭开美容护肤行业的科学面纱

染发剂弄到白色家具上的清洁方法及注意事项

染发剂弄到白色家具上的清洁方法及注意事项

蜂蜜变质怎么办？教你几招辨别蜂蜜是否变质过期

蜂蜜变质怎么办？教你几招辨别蜂蜜是否变质过期

新风系统设计方案和新风量计算方法

新风系统设计方案和新风量计算方法

樱花花语及寓意

樱花花语及寓意

新疆旅游新LOGO亮相，创意造型来源于「疆」字

新疆旅游新LOGO亮相，创意造型来源于「疆」字

北京地坛公园：传承与创新并蓄的文化名胜

北京地坛公园：传承与创新并蓄的文化名胜

平面设计中的“简约”之美！

平面设计中的“简约”之美！

肇庆居民医保报销比例2025年（门诊＋住院＋慢特病＋大病保险）

肇庆居民医保报销比例2025年（门诊＋住院＋慢特病＋大病保险）

什么是莱赛尔纤维？面料详情以及莱赛尔纤维是否真的可持续？

什么是莱赛尔纤维？面料详情以及莱赛尔纤维是否真的可持续？

齐善鸿讲《道德经》第三十七章：“无所不为” 的天力（下）

齐善鸿讲《道德经》第三十七章：“无所不为” 的天力（下）

宇宙学谜团新线索：马约拉纳中微子或揭开物质与暗物质之谜

宇宙学谜团新线索：马约拉纳中微子或揭开物质与暗物质之谜

猕猴桃怎么算烂了？教你辨别变质猕猴桃

猕猴桃怎么算烂了？教你辨别变质猕猴桃

HD和BD的区别能否比较清晰度

HD和BD的区别能否比较清晰度

冲奶粉的水温多少合适？一文详解冲奶粉的正确方法

冲奶粉的水温多少合适？一文详解冲奶粉的正确方法

4个「小腿伸展动作」锻炼比目鱼肌，练出细长美腿！

4个「小腿伸展动作」锻炼比目鱼肌，练出细长美腿！

茶叶能冲泡几次？六大茶类冲泡次数全解析

茶叶能冲泡几次？六大茶类冲泡次数全解析

你体验过“心流”吗？——投入当下，解锁人生极致状态！

你体验过“心流”吗？——投入当下，解锁人生极致状态！

东北苦寒之地，为何成为“北方稻米之乡”，朝鲜人的贡献功不可没

东北苦寒之地，为何成为“北方稻米之乡”，朝鲜人的贡献功不可没

白玻和Low-E玻璃怎么选？

白玻和Low-E玻璃怎么选？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号