斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
创作时间:
作者:
@小白创作中心
斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
引用
新浪网
1.
https://finance.sina.com.cn/roll/2024-07-12/doc-inccvxzz4678734.shtml
斯坦福大学和谷歌研究人员近日推出了一项革命性的机器人导航技术——Mobility VLA。这项技术结合了谷歌最强Gemini 1.5 Pro大模型,使机器人能够在复杂环境中实现精准导航。
Mobility VLA:让机器人拥有“最强大脑”
Mobility VLA是一种分层的视觉-语言-行动(Vision-Language-Action,VLA)导航策略,它结合了长上下文VLMs的环境理解和常识推理能力,以及基于拓扑图的强大低层导航策略。
具体来说,Mobility VLA的工作原理如下:
离线阶段:从演示路线(N,F)中生成一个拓扑图G。拓扑图中的每个顶点vi对应于演示路线视频(F, N)中的帧fi。通过使用COLMAP这个现成的结构-从-运动(structure-from-motion)管线来确定每帧的近似六自由度(6-Degree-of-Freedom)相机姿态,并将其存储在顶点中。
在线阶段:
- 高层策略:使用演示路线和多模态用户指令(d,I)来找到导航目标帧的索引g。这一步主要依赖于Gemini 1.5 Pro的强大环境理解和常识推理能力。
- 低层策略:利用目标帧和离线构建的拓扑图,在每个时间步生成机器人动作。具体来说,使用一个实时的分层视觉定位系统,来基于当前的相机观测O,来估计机器人的姿态T和最近的起始顶点vs∈G。然后通过Dijkstra算法在拓扑图上找到从起始顶点vs到目标顶点vg之间的最短路径S。
实验结果:90%的指令完成率
研究人员在真实环境中对Mobility VLA进行了全面的测试,结果显示:
- 在大多数用户指令类别中具有高端到端导航成功率,包括以前难以实现的需要推理和多模态指令,并且还具有合理的SPL(成功率加权路径长度)。
- 在现实世界中低级目标到达策略的稳健性,其成功率达到了100%。
- 在大规模仿真测试中,高层目标找到率为90%,低层目标到达率为100%,总共成功执行了900次端到端操作。
- 在类家庭环境中,Mobility VLA的成功率为100%,SPL为0.87。
谷歌的机器人之路
谷歌在机器人领域的探索可以追溯到2012年,当时谷歌收购了包括波士顿动力在内的11家机器人公司。然而,由于技术瓶颈和成本问题,谷歌的机器人业务一度陷入困境。如今,随着AI大模型的快速发展,机器人领域迎来了新的发展机遇。
结语
Mobility VLA的出现,标志着机器人导航技术迈入了一个新的阶段。它不仅展示了AI大模型在机器人领域的巨大潜力,也为未来的机器人应用开辟了新的可能性。随着技术的不断进步,我们有理由相信,机器人将越来越多地融入我们的日常生活,为人类带来更多便利。
热门推荐
克尔凯郭尔:一个存在主义先驱的哲学探索
济南买房攻略:税费计算与相关政策详解
白内障晶体单焦/双焦/多焦有什么区别?哪个好?视觉呈现等均不同需结合需求选择
试管婴儿补贴政策详解:国家与地方补贴标准及申请指南
苏州河畔“小万柳堂”的百年沧桑
鱼油能否防止腹部肥胖
免疫性眼病指的是哪些疾病
抬头纹成因分析与预防及去除方法详解,助你重拾年轻活力
如何分析期货交易的保证金比例?这些保证金比例如何影响资金使用效率?
做T的有效指标有哪些?这些指标在实际操作中的应用技巧是什么?
在职场中如何有效表达不同意见:反问、不翻旧账、态度强硬
体检发现"缺血灶"、"腔梗灶",是脑梗死吗?
TPE塑料制品有气泡怎么办?原因分析与解决方案
人类在太空停留的最长时间是多少?长期太空飞行对身体有什么影响?
项目群入口管理怎么做的
怎样让AI理解你的意思:提升AI理解的10个有效沟通技巧
18强赛第3轮前瞻!沙特大战日本,巴林遭遇印尼,卡塔尔遇强敌!
国足惨败原因分析:技术、心理、体制三重困境
什么是离婚财产保护协议
如何科学计算食物热量
灰色关联分析:系统分析与综合评价方法详解
谷丙转氨酶是什么检查项目
病假时间的具体规定在哪里能找到?
个体户经营范围如何填写才正确
契税的办理流程
什么是电池过热
拿驾照的步骤?
龙息:神寂 - 游戏评测
水垢到底是什么?真的会对身体产生危害吗?
2025年房地产市场展望:放水继续,城市更新成新引擎