具身智能:硬件与算法的深度融合
具身智能:硬件与算法的深度融合
具身智能是当前人工智能领域最热门的话题之一,从2023年初开始,这个概念就逐渐成为学术界和工业界关注的焦点。本文将从硬件和算法两个维度,深入探讨具身智能的现状和发展趋势。
1.前言
从2023年伊始具身智能逐步开始成为热词,到今天更是成为学术界和工业界争相追逐的领域,所有人都在问机器人的时代真的要到来了吗?我们不给具体的答案,先看一下全球的动态,作为全球技术大咖兼大网红的马斯克推出了人形机器人,脑机控制,华人的技术大拿李飞飞创办了空间智能,宇树的王兴兴从绝对不碰人形机器人,到全力梭哈,国内外的投资人也都在以亿为单位的资金,角逐这片蓝海,行业的引领人都选择在这个节点切入,已经形成一种百家争鸣的事态,而纵观历史,任何一个新兴且可行行业来临前,都要历经这个过程,尽管这个时间对机器人而言周期或许会稍长,但最重要的是这个周期或以到来。
2.硬件
2.1机器人
我们先看看现在地面机器人的结构,如下图所示,常见的有机械臂,小车和四足机器人+机械臂的复合组成,以及足式和轮式人形机器人,在末端执行上逐步用灵巧手替代传统的两指夹爪。这些构型可以满足不同的应用场景,如工业,农业,家庭服务,特种作业等,不同的行走方式适应不同的地面要求,并根据任务需求,选择单臂或双臂作业,臂自由度常在4-7之间,以最大化效率。推理算力平台常用Intel的CPU,如i7-1265U,以及英伟达的GPU如Jetson Nano、Jetson TX2,雷达,相机等传感器已经成为标配。
2.2算力平台
从海量数据中训练模型需要强大的算力平台,简单列举了国内外主流性能较强的GPU型号。如下表所示(仅供参考)。 算力平台有很多指标,这里只对比了显存和FP32算力两个指标,RTX系列适合个人和小组研究,A100,H100,H200,华为昇腾910B,寒武纪 /思元370-X8可以作为大规模集群训练,适用于GPT这种超大模型的训练,比方说马斯克已经建成了10万张H100/200的集群服务器,并计划扩大到20万张。华为昇腾910B,寒武纪 /思元370-X8作为国产的领头羊也已经得到了广泛支持。
型号 | 显存(GB) | FP32算力(TFLOPS) | 价格 |
---|---|---|---|
RTX 3090 | 24 | 35.6 | 11999 |
RTX 4090 | 24 | 49.0 | 12999 - 15499 |
A100 | 40/80 | 19.5 | 120000 - 150000 |
H100 | 80 | 67 | 250000 - 350000 |
H200 | 141 | 67 | - |
华为昇腾910B | 64 | 80 | 120000 |
寒武纪/思元370-X8 | 48 | 24 | - |
3.算法
3.1具身策略
具身智能传统上以强化学习和模仿学习为主,强化学习可以理解为一个小孩子成长为大人的过程,要从无到有,学习所有的技能,而每一个技能的学习过程,都会告诉他你这样做是对还是错的,帮助其更快更好的掌握技能。强化学习强调自己去探索,从自己成功或失败的经验中总结,而不关注其他人。对于模仿学习,直观来看是一个学习别人成功经验的过程。以钓鱼举例,使用强化学习,机器人会一个人刻苦钻研如何垂钓,使用模仿学习,机器人会找一个人多的地方,看别人如何操作。
无论是强化学习还是模仿学习,都是以数据驱动的训练方式,所以说,具身智能第一步,先解决数据问题,数据的规模和质量,对于模型的优劣至关重要,数据的获取来源可以分为仿真数据和真实数据,仿真数据,常用Mujoco,Isaac sim等仿真平台获取,真实数据常用VR,可穿戴式设备通过遥操作获得,仿真数据的优点是成本低,规模大,但质量低,真实数据的优点是质量高,但成本难以降下来,所以也有将二者结合的方法去合成数据训练。
进一步随着大模型的诞生,二者的研究出现了新的范式,对于数据而言,生成式大模型可以直接生成大量的数据,帮助模型训练,对于二者本身训练框架而言,强化学习中,大模型可以作为导师,告诉机器人其行为的对错,等于获得了专家指导。模仿学习中,大模型可以作为编码器,增强机器人的感知能力,好比说给与了机器人千里眼,顺风耳,最强大脑,大大增强其学习能力。
3.2具身感知
笔者在这里主要强调视觉感知,我们生活中常见的主要是人脸视觉,这在视觉领域属于目标类别检测,用于区别人和人,人和其他事物。进一步视觉领域还有目标姿态检测,用于检测一个物体在空间中的位置和朝向。在机器人领域,比方说抓取,我们希望机器人看到一个物体就知道它的位置和朝向,并可以判断怎么抓,抓哪个位置最合适,但传统方法中,机器人通过理解人类指令进行相应的操作,再进一步希望机器人可以听懂人类的语言含义,从中判断它应该抓什么。
得益于大模型,在训练视觉的模型时,可以将视觉信息和语言信息有效融合,直接通过语言含义,预测机器人可抓取的姿态。如下图所示,可以直接在Query输入想要抓取目标的名称,便可以直接得到多个可抓取的姿态。
3.3具身代理
这个也是伴随大模型一块诞生的新方法,也叫视觉-语言-动作模型,无论是具身感知还是具身策略,都需要借助其他模块才能完成感知,理解,决策,执行的整个过程,而具身代理强调,整个操作过程在一个框架下完成,也就是我们所说的端到端大模型,典型代表如RT-1,RT-2,这个模型可以理解它所看到的是什么,物体之间有什么关系,并根据任务指令,去思考如何分步完成整个任务,在做好决策后,直接输出动作执行命令。但这种方法尚处于襁褓,所以一些平替方法,常以视觉-语言大模型作为理解和决策模型,传统控制方法,强化,模仿等方法作为执行模块。