斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
创作时间:
作者:
@小白创作中心
斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
引用
新浪网
1.
https://finance.sina.com.cn/roll/2024-07-12/doc-inccvxzz4678734.shtml
斯坦福大学和谷歌研究人员近日推出了一项革命性的机器人导航技术——Mobility VLA。这项技术结合了谷歌最强Gemini 1.5 Pro大模型,使机器人能够在复杂环境中实现精准导航。
Mobility VLA:让机器人拥有“最强大脑”
Mobility VLA是一种分层的视觉-语言-行动(Vision-Language-Action,VLA)导航策略,它结合了长上下文VLMs的环境理解和常识推理能力,以及基于拓扑图的强大低层导航策略。
具体来说,Mobility VLA的工作原理如下:
离线阶段:从演示路线(N,F)中生成一个拓扑图G。拓扑图中的每个顶点vi对应于演示路线视频(F, N)中的帧fi。通过使用COLMAP这个现成的结构-从-运动(structure-from-motion)管线来确定每帧的近似六自由度(6-Degree-of-Freedom)相机姿态,并将其存储在顶点中。
在线阶段:
- 高层策略:使用演示路线和多模态用户指令(d,I)来找到导航目标帧的索引g。这一步主要依赖于Gemini 1.5 Pro的强大环境理解和常识推理能力。
- 低层策略:利用目标帧和离线构建的拓扑图,在每个时间步生成机器人动作。具体来说,使用一个实时的分层视觉定位系统,来基于当前的相机观测O,来估计机器人的姿态T和最近的起始顶点vs∈G。然后通过Dijkstra算法在拓扑图上找到从起始顶点vs到目标顶点vg之间的最短路径S。
实验结果:90%的指令完成率
研究人员在真实环境中对Mobility VLA进行了全面的测试,结果显示:
- 在大多数用户指令类别中具有高端到端导航成功率,包括以前难以实现的需要推理和多模态指令,并且还具有合理的SPL(成功率加权路径长度)。
- 在现实世界中低级目标到达策略的稳健性,其成功率达到了100%。
- 在大规模仿真测试中,高层目标找到率为90%,低层目标到达率为100%,总共成功执行了900次端到端操作。
- 在类家庭环境中,Mobility VLA的成功率为100%,SPL为0.87。
谷歌的机器人之路
谷歌在机器人领域的探索可以追溯到2012年,当时谷歌收购了包括波士顿动力在内的11家机器人公司。然而,由于技术瓶颈和成本问题,谷歌的机器人业务一度陷入困境。如今,随着AI大模型的快速发展,机器人领域迎来了新的发展机遇。
结语
Mobility VLA的出现,标志着机器人导航技术迈入了一个新的阶段。它不仅展示了AI大模型在机器人领域的巨大潜力,也为未来的机器人应用开辟了新的可能性。随着技术的不断进步,我们有理由相信,机器人将越来越多地融入我们的日常生活,为人类带来更多便利。
热门推荐
爱心"护学岗":家校携手守护孩子上下学安全
金庸群侠传能学多少武功 武功的种类
让《鸣潮》口碑逆转的长离,堪称二游角色设计教科书
希腊语美好寓意的名字小众
高频交易是什么?高频交易的策略和风险控制有哪些?
长期失眠的危害:八大方面影响心理健康
朱元璋统一全国的过程
Excel生日提醒,二分钟学会
居间合同中的佣金争议与解决
12个名人,12副对联,两句话就是一生
美国人忌讳哪些颜色?
日本IT|高度人才签证(高度専門職ビザ)的评分机制与申请策略
如何选择合适的购房时机?
哈利波特原著中最具价值的15个魔法物品
从全球百余城市低碳发展水平异同看中国城市低碳发展之道
中小企业如何用有限预算做好新媒体营销?六大实用策略详解
我们都是小配角
富贵竹能否有效吸收甲醛(揭秘富贵竹吸收甲醛真相)
10款小客厅必备家具设计推荐——兼顾时尚与实用的空间魔法!
“这不就是世界本来的样子吗?” 中美网友奔现背后,小红书走向国际
掌握命运的方法:自我反省
H610 UEFI显卡兼容性全解析:优化配置,确保最佳性能表现
各类水果保鲜剂及其清洗方法
黄金比例在UI设计中的运用
黄金比例究竟有什么“魔力”?从数学角度深度剖析
粉蒸肉,一道经典的中华美食,口感糯软,香气扑鼻,深受食客喜爱
粉蒸肉的历史渊源与烹饪技巧
DIY法式香草冰淇淋
3、4月份,无锡这几个地方将迎来最美春天,你去过几个?
主动脉瓣返流的超声心动图评估:来自英国超声心动图学会的实用指南