机器人导航能力受限?大模型多模态技术提供创新解决方案
创作时间:
作者:
@小白创作中心
机器人导航能力受限?大模型多模态技术提供创新解决方案
引用
腾讯
1.
https://new.qq.com/rain/a/20250120A08O7300?media_id=&openApp=false&suid=&web_channel=wap
随着人工智能和机器人技术的不断发展,机器人导航能力的提升成为了研究的重点。香港科技大学(广州)李昊昂教授团队在这一领域取得了重要突破,他们研究出的视觉-语言导航技术,能够帮助机器人整合视觉信息及语言指令,实现更高效的人机交互。
为了克服纯视觉导航存在的局限性,香港科技大学(广州)李昊昂教授团队研究出了视觉-语言导航技术。该技术可帮助机器人整合视觉信息及语言指令,从而实现高效的人机交互。
在服务机器人的应用中,机器人可理解人类语言指令,并通过视觉数据识别关键信息,进而据此完成任务。例如,机器人可理解指令“走到客厅,把餐桌上的苹果拿给我”,并识别“客厅”、“餐桌”、“苹果”等关键信息来完成任务。研究成果取得了行业领先的性能,可为机器人提供更加自然、智能、高效的导航与交互能力。
在信息保障方面,受制于有限的数据质量和训练场景,现有的视觉-语言大模型存在对照片拍摄视角敏感、难以理解模糊语言指令等问题。针对该问题,李昊昂教授团队提出面向视觉-语言导航应用的大模型调优策略。在机器人室内外导航数据上进行视觉数据抽取和语言指令标注,然后将模型在该数据上拟合。机器人可以根据提取的环境视觉特征和人类语言指令来决定其导航路径。
此外,在数据基础方面,现有的导航训练数据主要由人工在真实世界下获取,存在数据量不足、多样性低以及标注成本高等问题。李昊昂教授团队通过仿真数据合成的方式解决该问题,设计了新颖的生成式扩散模型,可合成大量、多样化、高质量的视觉数据和相关的语言描述,从而提高模型在处理复杂、未见场景时的鲁棒性。
热门推荐
世界自然基金会:印度饮食消费模式最可持续
咳嗽看哪个科室比较好
员工绩效考核与职业发展规划怎么结合?
10个全身力量练习来塑造你的核心和苗条的腰围
微信新功能上线!一键删除“单向好友”,告别社交负担
湿疹患者饮食指南:哪些食物有助于缓解症状?
以同理心和韧性共度癌症难关
城乡居民养老保险注销登记办理指南
影响金价的因素分析:从经济形势到市场预期
即将开通!无锡⇋浦东机场,嗖~
无锡交通规划:10个火车站、6个机场助力全国性综合交通枢纽建设
开展人文关怀对医院科室发展的影响
湖南江永:探索“医共体”新路子 让群众看病更有“医靠”
电车VS油电混合车,到底选哪个才不后悔?
《文明6》海军玩家必读:如何选择最适合的地图类型
@灵活就业人员,请收好这份参保清单→
东北话里的蒙古语
漂移用什么车最好
建筑测量项目管理方案编写指南
华为笔记本电脑开不了机怎么办 试试这个办法
2025年甘肃高考志愿填报规则详解:家长必存!45个志愿填准=多考20分!
腹股沟疝的两种类型:斜疝与直疝
营业执照的注册号是什么意思
孕妇每日所需营养有哪些?一张孕妇营养表教你如何吃对营养!
大连多个大项目抢抓开门红!
六安钢铁控股集团:创新驱动引领高质量发展
如何读懂超声检查报告单?
慕斯蛋糕如何长久保存?冷冻还是冷藏更好?
肠阻塞怎么办?症状、原因、治疗、预防方法一次看
神经头痛的原因及护理方法