学习将人类手部技能迁移至机器人操作
学习将人类手部技能迁移至机器人操作
近年来,机器人技术的发展取得了显著进展,尤其是在模仿学习领域。然而,将人类手部运动迁移到机器人上仍然面临许多挑战。本文介绍了一种创新方法,通过学习人类手部动作演示,使机器人能够执行灵巧的操作任务。这种方法不仅考虑了运动学信息,还考虑了机器人与目标之间的交互合理性,为机器人操作技能的迁移提供了新的思路。
研究背景
近年来,机器人遥操作已成为机器人技术的常见数据源。有几篇研究成果提出跨不同机器人平台的遥操作系统,包括灵巧机器人手[1]–[4]、移动机器人[10]、双手机器人[11]–[14]和人形机器人[15]–[ 17]。这种系统通常由一个感知模块和一个重定向算法组成,其中感知模块用于估计人类遥控操作员的运动,而重定向算法则将人类运动运动映射到机器人动作上。虽然遥操作数据包含丰富的信息,可用于通过模仿学习来训练机器人策略,但它有两个主要缺点:需要硬件系统(即机器人和遥操作设备,如 VR 设备 [11]、[18]、外骨骼 [12])和额外的链接系统[19])以及人类遥控操作员和机器人之间的具身差距。其中,后者虽然重要,但往往受到较少的关注。具体而言,当人类遥控操作员通过系统间接与环境交互时,遥控操作员应在数据收集期间通过视觉反馈来填补具身差距(即查看机器人是否以期望的方式与环境交互)。如果机器人没有按照预期行动,遥操作员应该随着时间的推移隐性地调整遥操作策略,使得遥操作在执行复杂的操作任务时可扩展性降低。
技术创新
本文提出一种基于学习的重定向方法,从人体运动演示中推断出合理的机器手动作。具体来说,目标是找到机器手动作和人手运动之间的映射,以实现相同的目标物体运动。其框架概述如图所示:
具体来说,该方法以目标物体轨迹 O 和人手演示 H 作为输入,并输出相应的合理机器人动作轨迹 R: R = F(O, H)。提出的框架 F 通过训练卷积自动编码器模型 [33],[34] 来学习 O、H 和 R 上的联合时空流形而构建,包括编码器和解码器: (O, H, R) ≈ Ψdec (Ψenc (O, H, R))。
其中编码的瓶颈层 Ψenc (O, H, R) = L 表示流形潜代码,用于模拟操作过程中人手、机器人动作和目标物体轨迹之间的相关性。通过这个学习流形,能够通过基于优化的框架来估计缺失的组件。例如,给定人手运动 H 和目标物体轨迹 O,通过优化潜代码 L 推断出相应的合理机器手轨迹 R。一旦找到最佳 L*,就可以通过应用解码器并从输出中提取机械手组件来计算所需的机械手运动 R: R = Ψ_decR(L*)。由于潜代码的优化是通过梯度下降法进行的,因此选择一个好的初始 Linit非常重要。为了实现这一目标,首先使用基于传统逆运动学 (IK) 的优化方法,通过将机器人指尖位置与人类指尖位置进行匹配,根据人类运动 H 估计初始机器人手部运动 Rinit。然后将其用作编码器的输入来初始化潜代码:Linit= Ψenc(O, H, R^init)。
数据收集与实验验证
为了验证该方法的有效性,研究团队构建了一个多摄像头系统,该系统由 16 个摄像头组成,并配有可穿戴动作捕捉设备和手套,用于捕捉 3D 人体运动和目标运动,如图所示,其系统来自 [36]。
3D 人体和手部动作线索是从可穿戴动作捕捉设备获得的。多摄像头系统用于通过跟踪目标和手套上附加的 ARUCO 标记来跟踪 3D 目标运动,如图所示,其中手套上的标记需要将人体运动和目标对齐相同的3D坐标系。多相机系统同步并进行空间标定。在设置中,目标、人手以及机器人手臂和手,位于共同的 3D 坐标中,捕获频率为 30Hz。标定后,使用同一系统收集人体动作捕捉演示和机器人遥操作数据。为了执行机器人遥操作,直接使用遥控操作员的手腕姿势。从动作捕捉设备获取的骨盆框架和手部关节角度,作为机器人动作。
选择三个具有不同特征的目标和相应的任务来证明该框架的有效性。以下是三个目标及其对应的任务:
- 瓶子:机器人必须从随机的起始位置拾取瓶子,并将其放置在目标位置内,且不能将其翻倒。瓶子的直径很大,人手无法完全握住它,而机械手由于手掌较大,却能够握住整个瓶子。单纯地匹配机器人和人类手指尖可能会导致不稳定的抓握。
- 碗:机器人必须从随机的起始位置拾取碗,同时保持直立旋转,并将其放置在目标位置内。碗的凹形会引起人手和物体手之间复杂的接触相互作用,并且机器人需要精确的控制才能在不倾斜碗的情况下拿起碗。
- 书:机器人必须拿起书本并重新调整方向,以使其垂直站立。由于书籍的平整度和尺寸,机械手在重定位过程中必须与书籍保持良好、一致的接触,以防止滑落。此外,仔细放置对于确保书本保持直立至关重要。
对于瓶子、碗、书的每个任务,分别收集 113、100、114 个人体动作捕捉演示和 92、114、93 个机器人遥操作演示。存在许多不同的可能目标轨迹来完成相同的任务,这强调提出的合成数据生成管道的必要性。针对每个任务训练 Ψ_enc,dec 和 ψ_enc,dec,并且各个任务之间共享一个回归器 Ω。每个数据集按 9:1 的比例分为训练集和验证集。
实验结果与分析
通过实验,旨在回答以下问题:
- (问题 1)沿着人体动作捕捉流形的手部运动细化过程是否会为合成的人机交互数据产生更符合物理规律、更自然的人体运动?
- (Q2)回归模型 Ω 是否有必要为手部运动细化提供良好的潜在初始化?
- (问题 3)与基线相比,重定向模型 F 能否更好地将人类动作捕捉数据转换为机器人动作数据?
- (Q4)重定向模型 F 可以推广到未见过的目标轨迹吗?
- (问题 5)重定向模型在人体动作捕捉演示中是否具有抗噪声能力?
实验结果表明,该方法能够有效地将人类手部技能迁移到机器人操作中,特别是在处理复杂的目标交互时表现出色。与传统的重定向方法相比,该方法能够生成更符合物理规律的机器人动作,提高了任务的成功率和稳定性。
总结
本文提出了一种创新的机器人操作技能迁移方法,通过学习人类手部动作演示,使机器人能够执行灵巧的操作任务。这种方法不仅考虑了运动学信息,还考虑了机器人与目标之间的交互合理性,为机器人操作技能的迁移提供了新的思路。实验结果表明,该方法在处理复杂的目标交互时表现出色,能够生成更符合物理规律的机器人动作,提高了任务的成功率和稳定性。