斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
创作时间:
作者:
@小白创作中心
斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
引用
新浪网
1.
https://finance.sina.com.cn/roll/2024-07-12/doc-inccvxzz4678734.shtml
斯坦福大学和谷歌研究人员近日推出了一项革命性的机器人导航技术——Mobility VLA。这项技术结合了谷歌最强Gemini 1.5 Pro大模型,使机器人能够在复杂环境中实现精准导航。
Mobility VLA:让机器人拥有“最强大脑”
Mobility VLA是一种分层的视觉-语言-行动(Vision-Language-Action,VLA)导航策略,它结合了长上下文VLMs的环境理解和常识推理能力,以及基于拓扑图的强大低层导航策略。
具体来说,Mobility VLA的工作原理如下:
离线阶段:从演示路线(N,F)中生成一个拓扑图G。拓扑图中的每个顶点vi对应于演示路线视频(F, N)中的帧fi。通过使用COLMAP这个现成的结构-从-运动(structure-from-motion)管线来确定每帧的近似六自由度(6-Degree-of-Freedom)相机姿态,并将其存储在顶点中。
在线阶段:
- 高层策略:使用演示路线和多模态用户指令(d,I)来找到导航目标帧的索引g。这一步主要依赖于Gemini 1.5 Pro的强大环境理解和常识推理能力。
- 低层策略:利用目标帧和离线构建的拓扑图,在每个时间步生成机器人动作。具体来说,使用一个实时的分层视觉定位系统,来基于当前的相机观测O,来估计机器人的姿态T和最近的起始顶点vs∈G。然后通过Dijkstra算法在拓扑图上找到从起始顶点vs到目标顶点vg之间的最短路径S。
实验结果:90%的指令完成率
研究人员在真实环境中对Mobility VLA进行了全面的测试,结果显示:
- 在大多数用户指令类别中具有高端到端导航成功率,包括以前难以实现的需要推理和多模态指令,并且还具有合理的SPL(成功率加权路径长度)。
- 在现实世界中低级目标到达策略的稳健性,其成功率达到了100%。
- 在大规模仿真测试中,高层目标找到率为90%,低层目标到达率为100%,总共成功执行了900次端到端操作。
- 在类家庭环境中,Mobility VLA的成功率为100%,SPL为0.87。
谷歌的机器人之路
谷歌在机器人领域的探索可以追溯到2012年,当时谷歌收购了包括波士顿动力在内的11家机器人公司。然而,由于技术瓶颈和成本问题,谷歌的机器人业务一度陷入困境。如今,随着AI大模型的快速发展,机器人领域迎来了新的发展机遇。
结语
Mobility VLA的出现,标志着机器人导航技术迈入了一个新的阶段。它不仅展示了AI大模型在机器人领域的巨大潜力,也为未来的机器人应用开辟了新的可能性。随着技术的不断进步,我们有理由相信,机器人将越来越多地融入我们的日常生活,为人类带来更多便利。
热门推荐
3D打印创客教室:从创意到实践的创新教育模式
备战半马,平日跑量及配速怎样安排才有戏?
国图联合10家单位发布古籍数字资源,新增1700余部古籍
电力行业产业链的关键环节有哪些?
Altium Designer 20 PCB设计层详解
味觉盛宴双胞胎?菠萝和菠萝蜜区别一次说清楚
陈皮用沸水泡吗?正确方法与功效解析
升级流:网络文学中的成长逆袭之路
逆向工程是什么意思?逆向工程核心原理是什么?
吃什么可以控制甘油三酯
辛丑条约:晚清衰败的见证
揭秘挠痒痒之谜:为什么自己挠不痒,别人挠才痒?
洛邑:东周的辉煌印记
专家解读:新技术装备如何赋能应急救援
紫微斗数短命征兆解析:三大凶命格与影响因素
如何停止精神内耗,学会与自己和解
Excel表格公式结果复制方法全攻略
浅谈停车库的价值评估
周鸿祎:打工混日子将陷入社会底层,年轻人应抓住AI、自媒体和国际化机遇
两宋时期科举制是如何发展的?带来了什么样的影响?
清华大学团队在量子场论和全息原理交叉领域取得重要进展
PCB设计-每一层的含义(实物讲解 详细版)
Word文档无法输入文字?四种常见原因及解决方案
新生儿体温:正常范围与护理实用贴士
Excel公式计算结果粘贴方法详解:从基础操作到高级技巧
音乐创作中的著作权问题
挪威的森林:生命的迷失与觉醒
一篇文章看懂广义相对论,爱因斯坦是如何构建时空弯曲?
八字原局成势,八字原局信息的提取
深度丨谁是“大女主”?古装剧女主集体“升级”