UC伯克利HIL-SERL:结合视觉和人类示教的RL方法实现精准机器人操作
UC伯克利HIL-SERL:结合视觉和人类示教的RL方法实现精准机器人操作
近日,UC伯克利的研究团队提出了一种名为HIL-SERL的通用灵巧机器人框架,该框架结合了视觉和人类演示与修正的RL方法进行训练。研究团队在实验中展示了该框架在各种复杂任务中的出色表现,包括主板组装、USB插拔等,为机器人操作领域带来了新的突破。
HIL-SERL框架概述
HIL-SERL(Human-in-the-Loop Reinforcement Learning)框架的核心是结合视觉输入和人类演示与修正的强化学习方法。研究团队在策略训练过程中,设计了一个低级控制器以确保安全,并在训练过程中向人类操作员查询潜在的修正,然后以离线策略的方式更新策略。
该框架在现实世界环境中仅用1到2.5小时的训练时间就能实现几乎完美的成功率,并且在成功率方面比模仿学习方法平均提高了101%,周期时间快了1.8倍。
HIL-SERL在动态翻转物体任务中的表现
HIL-SERL在组装复杂设备如计算机主板任务中的表现
HIL-SERL在汽车仪表板或正时皮带组装任务中的表现
HIL-SERL与以前工作的差异
与之前的工作相比,HIL-SERL的独特之处在于:
- 结合了人类演示和修正来训练RL策略,而之前的SERL仅依赖于人类演示
- 直接使用像素输入,消除了对精确动作捕捉系统的需求
- 采用更紧密的感知-动作回路,学习任务相关的视觉特征和视动策略
人工参与的强化学习系统
HIL-SERL系统由三个主要组件组成:actor进程、learner进程以及重放缓冲区。在训练过程中,人类可以通过SpaceMouse介入机器人,从而接管RL策略对机器人的控制。
系统采用两个重放缓冲区:一个用于存储离线人类示范,另一个用于存储在线策略数据。学习者进程从这两个缓冲区中等量采样数据,使用RLPD优化策略,并定期将更新的策略发送给actor进程。
系统设计关键点
- 预训练视觉骨干网络:使用预训练的ResNet-10模型处理图像数据
- 奖励函数:使用稀疏奖励函数,结合人类演示和修正
- 夹持器控制:采用单独的价值网络来评估离散抓取动作
实验结果
研究团队在多个复杂任务中验证了HIL-SERL框架的有效性,包括主板组装、USB插拔、动态物体翻转等。实验结果显示,HIL-SERL在所有任务中均实现了100%的成功率,并且在周期时间上比模仿学习方法快了1.8倍。
通过与HG-DAgger等模仿学习方法的对比,研究团队发现HIL-SERL在较少人类监督的情况下取得了更好的性能。这主要得益于RL的关键优势,即能够自主探索并从其行动结果中学习。
现存工作的局限性与不足
虽然HIL-SERL在许多任务中表现出色,但仍存在一些局限性:
- 需要从头开始训练每个新任务
- 对显著更长时间跨度的任务的泛化能力尚待验证
- 随机化和非结构化环境下的泛化能力需要进一步研究
研究团队建议通过预训练价值函数和视觉基础模型来解决这些问题,并希望通过这项工作为使用强化学习解决机器人操作问题铺平道路。