问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样

创作时间:
作者:
@小白创作中心

斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样

引用
新浪网
1.
https://finance.sina.com.cn/roll/2024-07-12/doc-inccvxzz4678734.shtml

斯坦福大学和谷歌研究人员近日推出了一项革命性的机器人导航技术——Mobility VLA。这项技术结合了谷歌最强Gemini 1.5 Pro大模型,使机器人能够在复杂环境中实现精准导航。

Mobility VLA:让机器人拥有“最强大脑”

Mobility VLA是一种分层的视觉-语言-行动(Vision-Language-Action,VLA)导航策略,它结合了长上下文VLMs的环境理解和常识推理能力,以及基于拓扑图的强大低层导航策略。

具体来说,Mobility VLA的工作原理如下:

  1. 离线阶段:从演示路线(N,F)中生成一个拓扑图G。拓扑图中的每个顶点vi对应于演示路线视频(F, N)中的帧fi。通过使用COLMAP这个现成的结构-从-运动(structure-from-motion)管线来确定每帧的近似六自由度(6-Degree-of-Freedom)相机姿态,并将其存储在顶点中。

  2. 在线阶段

  • 高层策略:使用演示路线和多模态用户指令(d,I)来找到导航目标帧的索引g。这一步主要依赖于Gemini 1.5 Pro的强大环境理解和常识推理能力。
  • 低层策略:利用目标帧和离线构建的拓扑图,在每个时间步生成机器人动作。具体来说,使用一个实时的分层视觉定位系统,来基于当前的相机观测O,来估计机器人的姿态T和最近的起始顶点vs∈G。然后通过Dijkstra算法在拓扑图上找到从起始顶点vs到目标顶点vg之间的最短路径S。

实验结果:90%的指令完成率

研究人员在真实环境中对Mobility VLA进行了全面的测试,结果显示:

  • 在大多数用户指令类别中具有高端到端导航成功率,包括以前难以实现的需要推理和多模态指令,并且还具有合理的SPL(成功率加权路径长度)。
  • 在现实世界中低级目标到达策略的稳健性,其成功率达到了100%。
  • 在大规模仿真测试中,高层目标找到率为90%,低层目标到达率为100%,总共成功执行了900次端到端操作。
  • 在类家庭环境中,Mobility VLA的成功率为100%,SPL为0.87。

谷歌的机器人之路

谷歌在机器人领域的探索可以追溯到2012年,当时谷歌收购了包括波士顿动力在内的11家机器人公司。然而,由于技术瓶颈和成本问题,谷歌的机器人业务一度陷入困境。如今,随着AI大模型的快速发展,机器人领域迎来了新的发展机遇。

结语

Mobility VLA的出现,标志着机器人导航技术迈入了一个新的阶段。它不仅展示了AI大模型在机器人领域的巨大潜力,也为未来的机器人应用开辟了新的可能性。随着技术的不断进步,我们有理由相信,机器人将越来越多地融入我们的日常生活,为人类带来更多便利。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号