斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
创作时间:
作者:
@小白创作中心
斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
引用
新浪网
1.
https://finance.sina.com.cn/roll/2024-07-12/doc-inccvxzz4678734.shtml
斯坦福大学和谷歌研究人员近日推出了一项革命性的机器人导航技术——Mobility VLA。这项技术结合了谷歌最强Gemini 1.5 Pro大模型,使机器人能够在复杂环境中实现精准导航。
Mobility VLA:让机器人拥有“最强大脑”
Mobility VLA是一种分层的视觉-语言-行动(Vision-Language-Action,VLA)导航策略,它结合了长上下文VLMs的环境理解和常识推理能力,以及基于拓扑图的强大低层导航策略。
具体来说,Mobility VLA的工作原理如下:
离线阶段:从演示路线(N,F)中生成一个拓扑图G。拓扑图中的每个顶点vi对应于演示路线视频(F, N)中的帧fi。通过使用COLMAP这个现成的结构-从-运动(structure-from-motion)管线来确定每帧的近似六自由度(6-Degree-of-Freedom)相机姿态,并将其存储在顶点中。
在线阶段:
- 高层策略:使用演示路线和多模态用户指令(d,I)来找到导航目标帧的索引g。这一步主要依赖于Gemini 1.5 Pro的强大环境理解和常识推理能力。
- 低层策略:利用目标帧和离线构建的拓扑图,在每个时间步生成机器人动作。具体来说,使用一个实时的分层视觉定位系统,来基于当前的相机观测O,来估计机器人的姿态T和最近的起始顶点vs∈G。然后通过Dijkstra算法在拓扑图上找到从起始顶点vs到目标顶点vg之间的最短路径S。
实验结果:90%的指令完成率
研究人员在真实环境中对Mobility VLA进行了全面的测试,结果显示:
- 在大多数用户指令类别中具有高端到端导航成功率,包括以前难以实现的需要推理和多模态指令,并且还具有合理的SPL(成功率加权路径长度)。
- 在现实世界中低级目标到达策略的稳健性,其成功率达到了100%。
- 在大规模仿真测试中,高层目标找到率为90%,低层目标到达率为100%,总共成功执行了900次端到端操作。
- 在类家庭环境中,Mobility VLA的成功率为100%,SPL为0.87。
谷歌的机器人之路
谷歌在机器人领域的探索可以追溯到2012年,当时谷歌收购了包括波士顿动力在内的11家机器人公司。然而,由于技术瓶颈和成本问题,谷歌的机器人业务一度陷入困境。如今,随着AI大模型的快速发展,机器人领域迎来了新的发展机遇。
结语
Mobility VLA的出现,标志着机器人导航技术迈入了一个新的阶段。它不仅展示了AI大模型在机器人领域的巨大潜力,也为未来的机器人应用开辟了新的可能性。随着技术的不断进步,我们有理由相信,机器人将越来越多地融入我们的日常生活,为人类带来更多便利。
热门推荐
俄军大反攻,库尔斯克战局转折在即?
配音恶搞老头:背后的行业洞察与创作技巧
反应性低血糖是什么意思
婚前如何规避夫妻债务?三大实用建议
节后脾胃“闹脾气” 不要慌!中医给你支招,助您一键重启健康模式
脚气抹了药膏后变硬?可能的原因及应对措施
自由交易系统在手游中的价值体现—以《创造与魔法》为例
智能开关布线与接线全攻略
ESFP人格深度解析:爱情与事业中的优缺点

技术的未来:2025 年需要学习的五大技能
如何选择好用的VPS服务提供商?
足贴可以贴肚脐吗?足贴和肚脐贴的区别全解析
如何利用中国专利公布公告网进行专利检索与分析?
如何判断相似外观设计专利申请
细说中国神话人物之:灵宝天尊的由来
汽车PCB电路板品质检验要满足哪些行业标准及关键要素?
海中金命佩戴黄金的利与弊及注意事项
提升大模型 Function Calling 准确性
馒头的常见分类有哪些 馒头的营养成分和价值
如何起诉业委会筹备:法律实务操作指南
公务员笔试怎么复习最有效?
中央空调两联供接入米家全攻略:从案例解析到实操指引
预防狂犬病,上海88家处置门诊信息公布!
上市公司收购企业的要求及公告规定
2024年全球经济与政治的挑战与机遇
行政助理协调多方会议时的人际沟通技巧
戴牙冠后的常见不适症状及应对方法
巴黎奥运会纪念品热卖:80%吉祥物来自中国,文化衫产自印度
新疆旅行必备:特色纪念品购物指南
玫瑰花如何简单养护和浇水?有哪些技巧可以保持玫瑰花的美丽?