机器人导航能力受限?大模型多模态技术提供创新解决方案
创作时间:
作者:
@小白创作中心
机器人导航能力受限?大模型多模态技术提供创新解决方案
引用
腾讯
1.
https://new.qq.com/rain/a/20250120A08O7300?media_id=&openApp=false&suid=&web_channel=wap
随着人工智能和机器人技术的不断发展,机器人导航能力的提升成为了研究的重点。香港科技大学(广州)李昊昂教授团队在这一领域取得了重要突破,他们研究出的视觉-语言导航技术,能够帮助机器人整合视觉信息及语言指令,实现更高效的人机交互。
为了克服纯视觉导航存在的局限性,香港科技大学(广州)李昊昂教授团队研究出了视觉-语言导航技术。该技术可帮助机器人整合视觉信息及语言指令,从而实现高效的人机交互。
在服务机器人的应用中,机器人可理解人类语言指令,并通过视觉数据识别关键信息,进而据此完成任务。例如,机器人可理解指令“走到客厅,把餐桌上的苹果拿给我”,并识别“客厅”、“餐桌”、“苹果”等关键信息来完成任务。研究成果取得了行业领先的性能,可为机器人提供更加自然、智能、高效的导航与交互能力。
在信息保障方面,受制于有限的数据质量和训练场景,现有的视觉-语言大模型存在对照片拍摄视角敏感、难以理解模糊语言指令等问题。针对该问题,李昊昂教授团队提出面向视觉-语言导航应用的大模型调优策略。在机器人室内外导航数据上进行视觉数据抽取和语言指令标注,然后将模型在该数据上拟合。机器人可以根据提取的环境视觉特征和人类语言指令来决定其导航路径。
此外,在数据基础方面,现有的导航训练数据主要由人工在真实世界下获取,存在数据量不足、多样性低以及标注成本高等问题。李昊昂教授团队通过仿真数据合成的方式解决该问题,设计了新颖的生成式扩散模型,可合成大量、多样化、高质量的视觉数据和相关的语言描述,从而提高模型在处理复杂、未见场景时的鲁棒性。
热门推荐
厨房清洁到食材处理:10个实用生活技巧
汽车维修巧用粘合剂:四大要点确保修复效果
从虚拟实验室到历史重现:VR技术革新教育方式
虚拟现实赋能职业培训,市场规模五年将增八倍
70后父母不再强求子女结婚,折射社会观念变迁
短期恋爱兴起:从寻找对象到理性相处的全方位指南
结婚率低位回升,经济压力影响年轻人婚恋选择
四驱车VS两驱车:日常驾驶差异解读
虾滑的制作关键点和4种制作方法
心理脱敏疗法:让恐惧症患者重拾生活信心
戒烟致心血管病?专家:短期波动不改长期获益
专家解读:肺结节的真相与应对之道
2024版中国专家共识:肺结节与肺癌的CT筛查
吸烟影响免疫15年,研究锁定三大免疫“杀手”
90后为何恐婚?原生家庭阴影与经济压力成主要障碍
告别冬季车窗雾气:从源头预防到快速除雾
当代年轻人为何恐婚?经济压力与性别平等的双重考量
解压指南:恐婚青年如何优雅应对社交圈催婚
从春夏的婚姻恐惧看当代恐婚潮:40%年轻人单身超3年
人口分布与迁移:影响因素、全球格局与中国现状
故宫博物院:明清皇宫里的建筑艺术与文物珍品
联合国发行龙年邮票,全球多国共庆中国农历新年
从“红火火”到AI对联:新年祝福话里的中国年
北京、杭州、南京……这些城市为何成为大学生首选?
表白前的四个问题:如何理智地面对爱情
“风口”上的预制菜如何让消费者吃得安心
天水麻辣烫出圈背后的底层逻辑
特稿 | 10亿流量的甘肃麻辣烫,会是下一个兰州拉面吗?
软肝草与铁甲草的区别(两种不同的中药材比较)
软肝草与铁甲草的区别(两种不同的中药材比较)