具身智能：硬件与算法的深度融合

创作时间:

作者:

@小白创作中心

具身智能：硬件与算法的深度融合

引用

CSDN

https://m.blog.csdn.net/weixin_48878618/article/details/143911121

具身智能是当前人工智能领域最热门的话题之一，从2023年初开始，这个概念就逐渐成为学术界和工业界关注的焦点。本文将从硬件和算法两个维度，深入探讨具身智能的现状和发展趋势。

1.前言

从2023年伊始具身智能逐步开始成为热词，到今天更是成为学术界和工业界争相追逐的领域，所有人都在问机器人的时代真的要到来了吗？我们不给具体的答案，先看一下全球的动态，作为全球技术大咖兼大网红的马斯克推出了人形机器人，脑机控制，华人的技术大拿李飞飞创办了空间智能，宇树的王兴兴从绝对不碰人形机器人，到全力梭哈，国内外的投资人也都在以亿为单位的资金，角逐这片蓝海，行业的引领人都选择在这个节点切入，已经形成一种百家争鸣的事态，而纵观历史，任何一个新兴且可行行业来临前，都要历经这个过程，尽管这个时间对机器人而言周期或许会稍长，但最重要的是这个周期或以到来。

2.硬件

2.1机器人

我们先看看现在地面机器人的结构，如下图所示，常见的有机械臂，小车和四足机器人+机械臂的复合组成，以及足式和轮式人形机器人，在末端执行上逐步用灵巧手替代传统的两指夹爪。这些构型可以满足不同的应用场景，如工业，农业，家庭服务，特种作业等，不同的行走方式适应不同的地面要求，并根据任务需求，选择单臂或双臂作业，臂自由度常在4-7之间，以最大化效率。推理算力平台常用Intel的CPU，如i7-1265U，以及英伟达的GPU如Jetson Nano、Jetson TX2，雷达，相机等传感器已经成为标配。

2.2算力平台

从海量数据中训练模型需要强大的算力平台，简单列举了国内外主流性能较强的GPU型号。如下表所示(仅供参考)。算力平台有很多指标，这里只对比了显存和FP32算力两个指标，RTX系列适合个人和小组研究，A100，H100，H200，华为昇腾910B，寒武纪 /思元370-X8可以作为大规模集群训练，适用于GPT这种超大模型的训练，比方说马斯克已经建成了10万张H100/200的集群服务器，并计划扩大到20万张。华为昇腾910B，寒武纪 /思元370-X8作为国产的领头羊也已经得到了广泛支持。

型号	显存（GB）	FP32算力（TFLOPS）	价格
RTX 3090	24	35.6	11999
RTX 4090	24	49.0	12999 - 15499
A100	40/80	19.5	120000 - 150000
H100	80	67	250000 - 350000
H200	141	67	-
华为昇腾910B	64	80	120000
寒武纪/思元370-X8	48	24	-

3.算法

3.1具身策略

具身智能传统上以强化学习和模仿学习为主，强化学习可以理解为一个小孩子成长为大人的过程，要从无到有，学习所有的技能，而每一个技能的学习过程，都会告诉他你这样做是对还是错的，帮助其更快更好的掌握技能。强化学习强调自己去探索，从自己成功或失败的经验中总结，而不关注其他人。对于模仿学习，直观来看是一个学习别人成功经验的过程。以钓鱼举例，使用强化学习，机器人会一个人刻苦钻研如何垂钓，使用模仿学习，机器人会找一个人多的地方，看别人如何操作。

无论是强化学习还是模仿学习，都是以数据驱动的训练方式，所以说，具身智能第一步，先解决数据问题，数据的规模和质量，对于模型的优劣至关重要，数据的获取来源可以分为仿真数据和真实数据，仿真数据，常用Mujoco，Isaac sim等仿真平台获取，真实数据常用VR，可穿戴式设备通过遥操作获得，仿真数据的优点是成本低，规模大，但质量低，真实数据的优点是质量高，但成本难以降下来，所以也有将二者结合的方法去合成数据训练。

进一步随着大模型的诞生，二者的研究出现了新的范式，对于数据而言，生成式大模型可以直接生成大量的数据，帮助模型训练，对于二者本身训练框架而言，强化学习中，大模型可以作为导师，告诉机器人其行为的对错，等于获得了专家指导。模仿学习中，大模型可以作为编码器，增强机器人的感知能力，好比说给与了机器人千里眼，顺风耳，最强大脑，大大增强其学习能力。

3.2具身感知

笔者在这里主要强调视觉感知，我们生活中常见的主要是人脸视觉，这在视觉领域属于目标类别检测，用于区别人和人，人和其他事物。进一步视觉领域还有目标姿态检测，用于检测一个物体在空间中的位置和朝向。在机器人领域，比方说抓取，我们希望机器人看到一个物体就知道它的位置和朝向，并可以判断怎么抓，抓哪个位置最合适，但传统方法中，机器人通过理解人类指令进行相应的操作，再进一步希望机器人可以听懂人类的语言含义，从中判断它应该抓什么。

得益于大模型，在训练视觉的模型时，可以将视觉信息和语言信息有效融合，直接通过语言含义，预测机器人可抓取的姿态。如下图所示，可以直接在Query输入想要抓取目标的名称，便可以直接得到多个可抓取的姿态。

3.3具身代理

这个也是伴随大模型一块诞生的新方法，也叫视觉-语言-动作模型，无论是具身感知还是具身策略，都需要借助其他模块才能完成感知，理解，决策，执行的整个过程，而具身代理强调，整个操作过程在一个框架下完成，也就是我们所说的端到端大模型，典型代表如RT-1，RT-2，这个模型可以理解它所看到的是什么，物体之间有什么关系，并根据任务指令，去思考如何分步完成整个任务，在做好决策后，直接输出动作执行命令。但这种方法尚处于襁褓，所以一些平替方法，常以视觉-语言大模型作为理解和决策模型，传统控制方法，强化，模仿等方法作为执行模块。

热门推荐

【25Fall】超详细香港硕士申请计划：5大类材料清单+时间线安排