问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

具身智能:硬件与算法的深度融合

创作时间:
作者:
@小白创作中心

具身智能:硬件与算法的深度融合

引用
CSDN
1.
https://m.blog.csdn.net/weixin_48878618/article/details/143911121

具身智能是当前人工智能领域最热门的话题之一,从2023年初开始,这个概念就逐渐成为学术界和工业界关注的焦点。本文将从硬件和算法两个维度,深入探讨具身智能的现状和发展趋势。

1.前言

从2023年伊始具身智能逐步开始成为热词,到今天更是成为学术界和工业界争相追逐的领域,所有人都在问机器人的时代真的要到来了吗?我们不给具体的答案,先看一下全球的动态,作为全球技术大咖兼大网红的马斯克推出了人形机器人,脑机控制,华人的技术大拿李飞飞创办了空间智能,宇树的王兴兴从绝对不碰人形机器人,到全力梭哈,国内外的投资人也都在以亿为单位的资金,角逐这片蓝海,行业的引领人都选择在这个节点切入,已经形成一种百家争鸣的事态,而纵观历史,任何一个新兴且可行行业来临前,都要历经这个过程,尽管这个时间对机器人而言周期或许会稍长,但最重要的是这个周期或以到来。

2.硬件

2.1机器人

我们先看看现在地面机器人的结构,如下图所示,常见的有机械臂,小车和四足机器人+机械臂的复合组成,以及足式和轮式人形机器人,在末端执行上逐步用灵巧手替代传统的两指夹爪。这些构型可以满足不同的应用场景,如工业,农业,家庭服务,特种作业等,不同的行走方式适应不同的地面要求,并根据任务需求,选择单臂或双臂作业,臂自由度常在4-7之间,以最大化效率。推理算力平台常用Intel的CPU,如i7-1265U,以及英伟达的GPU如Jetson Nano、Jetson TX2,雷达,相机等传感器已经成为标配。

2.2算力平台

从海量数据中训练模型需要强大的算力平台,简单列举了国内外主流性能较强的GPU型号。如下表所示(仅供参考)。 算力平台有很多指标,这里只对比了显存和FP32算力两个指标,RTX系列适合个人和小组研究,A100,H100,H200,华为昇腾910B,寒武纪 /思元370-X8可以作为大规模集群训练,适用于GPT这种超大模型的训练,比方说马斯克已经建成了10万张H100/200的集群服务器,并计划扩大到20万张。华为昇腾910B,寒武纪 /思元370-X8作为国产的领头羊也已经得到了广泛支持。

型号
显存(GB)
FP32算力(TFLOPS)
价格
RTX 3090
24
35.6
11999
RTX 4090
24
49.0
12999 - 15499
A100
40/80
19.5
120000 - 150000
H100
80
67
250000 - 350000
H200
141
67
-
华为昇腾910B
64
80
120000
寒武纪/思元370-X8
48
24
-

3.算法

3.1具身策略

具身智能传统上以强化学习和模仿学习为主,强化学习可以理解为一个小孩子成长为大人的过程,要从无到有,学习所有的技能,而每一个技能的学习过程,都会告诉他你这样做是对还是错的,帮助其更快更好的掌握技能。强化学习强调自己去探索,从自己成功或失败的经验中总结,而不关注其他人。对于模仿学习,直观来看是一个学习别人成功经验的过程。以钓鱼举例,使用强化学习,机器人会一个人刻苦钻研如何垂钓,使用模仿学习,机器人会找一个人多的地方,看别人如何操作。

无论是强化学习还是模仿学习,都是以数据驱动的训练方式,所以说,具身智能第一步,先解决数据问题,数据的规模和质量,对于模型的优劣至关重要,数据的获取来源可以分为仿真数据和真实数据,仿真数据,常用Mujoco,Isaac sim等仿真平台获取,真实数据常用VR,可穿戴式设备通过遥操作获得,仿真数据的优点是成本低,规模大,但质量低,真实数据的优点是质量高,但成本难以降下来,所以也有将二者结合的方法去合成数据训练。

进一步随着大模型的诞生,二者的研究出现了新的范式,对于数据而言,生成式大模型可以直接生成大量的数据,帮助模型训练,对于二者本身训练框架而言,强化学习中,大模型可以作为导师,告诉机器人其行为的对错,等于获得了专家指导。模仿学习中,大模型可以作为编码器,增强机器人的感知能力,好比说给与了机器人千里眼,顺风耳,最强大脑,大大增强其学习能力。

3.2具身感知

笔者在这里主要强调视觉感知,我们生活中常见的主要是人脸视觉,这在视觉领域属于目标类别检测,用于区别人和人,人和其他事物。进一步视觉领域还有目标姿态检测,用于检测一个物体在空间中的位置和朝向。在机器人领域,比方说抓取,我们希望机器人看到一个物体就知道它的位置和朝向,并可以判断怎么抓,抓哪个位置最合适,但传统方法中,机器人通过理解人类指令进行相应的操作,再进一步希望机器人可以听懂人类的语言含义,从中判断它应该抓什么。

得益于大模型,在训练视觉的模型时,可以将视觉信息和语言信息有效融合,直接通过语言含义,预测机器人可抓取的姿态。如下图所示,可以直接在Query输入想要抓取目标的名称,便可以直接得到多个可抓取的姿态。

3.3具身代理

这个也是伴随大模型一块诞生的新方法,也叫视觉-语言-动作模型,无论是具身感知还是具身策略,都需要借助其他模块才能完成感知,理解,决策,执行的整个过程,而具身代理强调,整个操作过程在一个框架下完成,也就是我们所说的端到端大模型,典型代表如RT-1,RT-2,这个模型可以理解它所看到的是什么,物体之间有什么关系,并根据任务指令,去思考如何分步完成整个任务,在做好决策后,直接输出动作执行命令。但这种方法尚处于襁褓,所以一些平替方法,常以视觉-语言大模型作为理解和决策模型,传统控制方法,强化,模仿等方法作为执行模块。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号