斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
创作时间:
作者:
@小白创作中心
斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
引用
新浪网
1.
https://finance.sina.com.cn/roll/2024-07-12/doc-inccvxzz4678734.shtml
斯坦福大学和谷歌研究人员近日推出了一项革命性的机器人导航技术——Mobility VLA。这项技术结合了谷歌最强Gemini 1.5 Pro大模型,使机器人能够在复杂环境中实现精准导航。
Mobility VLA:让机器人拥有“最强大脑”
Mobility VLA是一种分层的视觉-语言-行动(Vision-Language-Action,VLA)导航策略,它结合了长上下文VLMs的环境理解和常识推理能力,以及基于拓扑图的强大低层导航策略。
具体来说,Mobility VLA的工作原理如下:
离线阶段:从演示路线(N,F)中生成一个拓扑图G。拓扑图中的每个顶点vi对应于演示路线视频(F, N)中的帧fi。通过使用COLMAP这个现成的结构-从-运动(structure-from-motion)管线来确定每帧的近似六自由度(6-Degree-of-Freedom)相机姿态,并将其存储在顶点中。
在线阶段:
- 高层策略:使用演示路线和多模态用户指令(d,I)来找到导航目标帧的索引g。这一步主要依赖于Gemini 1.5 Pro的强大环境理解和常识推理能力。
- 低层策略:利用目标帧和离线构建的拓扑图,在每个时间步生成机器人动作。具体来说,使用一个实时的分层视觉定位系统,来基于当前的相机观测O,来估计机器人的姿态T和最近的起始顶点vs∈G。然后通过Dijkstra算法在拓扑图上找到从起始顶点vs到目标顶点vg之间的最短路径S。
实验结果:90%的指令完成率
研究人员在真实环境中对Mobility VLA进行了全面的测试,结果显示:
- 在大多数用户指令类别中具有高端到端导航成功率,包括以前难以实现的需要推理和多模态指令,并且还具有合理的SPL(成功率加权路径长度)。
- 在现实世界中低级目标到达策略的稳健性,其成功率达到了100%。
- 在大规模仿真测试中,高层目标找到率为90%,低层目标到达率为100%,总共成功执行了900次端到端操作。
- 在类家庭环境中,Mobility VLA的成功率为100%,SPL为0.87。
谷歌的机器人之路
谷歌在机器人领域的探索可以追溯到2012年,当时谷歌收购了包括波士顿动力在内的11家机器人公司。然而,由于技术瓶颈和成本问题,谷歌的机器人业务一度陷入困境。如今,随着AI大模型的快速发展,机器人领域迎来了新的发展机遇。
结语
Mobility VLA的出现,标志着机器人导航技术迈入了一个新的阶段。它不仅展示了AI大模型在机器人领域的巨大潜力,也为未来的机器人应用开辟了新的可能性。随着技术的不断进步,我们有理由相信,机器人将越来越多地融入我们的日常生活,为人类带来更多便利。
热门推荐
别人还我的钱是非法所得怎么办我不知道
2025年更换电动车,48V、60V、72V车型,选择哪个价位的更划算?
天天喝陈皮水差点喝进ICU?慢性中毒,千万不可大意
反胃酸的最佳解决方法
电车一上高速就掉电,想延长续航应该怎么办?
宠物医院不提供发票的法律后果及其合规性探讨
小红书四大赚钱方式:从博主到买手的实战经验分享
分居后产生的收入如何分配
从案例看情绪营销:如何精准定位情感点,创作打动人心的品牌故事
家用文昌塔挑选层数的最佳建议 文昌塔层数与运势的关系
8G以下的手机强烈建议开启内存拓展,体验会好很多!
王者实战中如何更好地利用李白的技能组合?
什么是车贷返利
湿热内蕴怎么治才能除根
烟草证有距离限制吗?详解烟草专卖零售许可证办理条件与无证经营后果
酒芍药的功效与作用
婴儿奶粉含棕榈油的危害
探究狗狗与人亲近的原因(揭示狗狗对人类的情感连接与依赖)
“恺撒”之名,从何而来?
苏州大学医学院研究发现:男性饮酒更容易导致痛风
of和for的用法与区别 of后面跟有生命还是无生命
青菜能放冰箱吗?(保存青菜的正确方法及注意事项)
烟种植合同签订协议及流程与注意事项
种烟叶合法性探究:我国相关法律法规解读
实例解析:正高级职称四级教授与副厅级公务员,谁的养老金会高些
详解电子转向管柱锁的功能原理
透析袋的使用与选择指南
大学学费有哪些学校
“借名买房”背后的法律风险,你了解多少?
玉米须泡水喝的神奇功效?揭秘玉米须的六大健康益处