问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

UC伯克利HIL-SERL:结合视觉和人类示教的RL方法实现精准机器人操作

创作时间:
作者:
@小白创作中心

UC伯克利HIL-SERL:结合视觉和人类示教的RL方法实现精准机器人操作

引用
CSDN
1.
https://blog.csdn.net/v_JULY_v/article/details/143388286

近日,UC伯克利的研究团队提出了一种名为HIL-SERL的通用灵巧机器人框架,该框架结合了视觉和人类演示与修正的RL方法进行训练。研究团队在实验中展示了该框架在各种复杂任务中的出色表现,包括主板组装、USB插拔等,为机器人操作领域带来了新的突破。

HIL-SERL框架概述

HIL-SERL(Human-in-the-Loop Reinforcement Learning)框架的核心是结合视觉输入和人类演示与修正的强化学习方法。研究团队在策略训练过程中,设计了一个低级控制器以确保安全,并在训练过程中向人类操作员查询潜在的修正,然后以离线策略的方式更新策略。

该框架在现实世界环境中仅用1到2.5小时的训练时间就能实现几乎完美的成功率,并且在成功率方面比模仿学习方法平均提高了101%,周期时间快了1.8倍。


HIL-SERL在动态翻转物体任务中的表现


HIL-SERL在组装复杂设备如计算机主板任务中的表现


HIL-SERL在汽车仪表板或正时皮带组装任务中的表现

HIL-SERL与以前工作的差异

与之前的工作相比,HIL-SERL的独特之处在于:

  1. 结合了人类演示和修正来训练RL策略,而之前的SERL仅依赖于人类演示
  2. 直接使用像素输入,消除了对精确动作捕捉系统的需求
  3. 采用更紧密的感知-动作回路,学习任务相关的视觉特征和视动策略

人工参与的强化学习系统

HIL-SERL系统由三个主要组件组成:actor进程、learner进程以及重放缓冲区。在训练过程中,人类可以通过SpaceMouse介入机器人,从而接管RL策略对机器人的控制。

系统采用两个重放缓冲区:一个用于存储离线人类示范,另一个用于存储在线策略数据。学习者进程从这两个缓冲区中等量采样数据,使用RLPD优化策略,并定期将更新的策略发送给actor进程。

系统设计关键点

  1. 预训练视觉骨干网络:使用预训练的ResNet-10模型处理图像数据
  2. 奖励函数:使用稀疏奖励函数,结合人类演示和修正
  3. 夹持器控制:采用单独的价值网络来评估离散抓取动作

实验结果

研究团队在多个复杂任务中验证了HIL-SERL框架的有效性,包括主板组装、USB插拔、动态物体翻转等。实验结果显示,HIL-SERL在所有任务中均实现了100%的成功率,并且在周期时间上比模仿学习方法快了1.8倍。

通过与HG-DAgger等模仿学习方法的对比,研究团队发现HIL-SERL在较少人类监督的情况下取得了更好的性能。这主要得益于RL的关键优势,即能够自主探索并从其行动结果中学习。

现存工作的局限性与不足

虽然HIL-SERL在许多任务中表现出色,但仍存在一些局限性:

  1. 需要从头开始训练每个新任务
  2. 对显著更长时间跨度的任务的泛化能力尚待验证
  3. 随机化和非结构化环境下的泛化能力需要进一步研究

研究团队建议通过预训练价值函数和视觉基础模型来解决这些问题,并希望通过这项工作为使用强化学习解决机器人操作问题铺平道路。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号