问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

UC伯克利HIL-SERL：结合视觉和人类示教的RL方法实现精准机器人操作

创作时间:

作者:

@小白创作中心

UC伯克利HIL-SERL：结合视觉和人类示教的RL方法实现精准机器人操作

引用

CSDN

1.

https://blog.csdn.net/v_JULY_v/article/details/143388286

近日，UC伯克利的研究团队提出了一种名为HIL-SERL的通用灵巧机器人框架，该框架结合了视觉和人类演示与修正的RL方法进行训练。研究团队在实验中展示了该框架在各种复杂任务中的出色表现，包括主板组装、USB插拔等，为机器人操作领域带来了新的突破。

HIL-SERL框架概述

HIL-SERL（Human-in-the-Loop Reinforcement Learning）框架的核心是结合视觉输入和人类演示与修正的强化学习方法。研究团队在策略训练过程中，设计了一个低级控制器以确保安全，并在训练过程中向人类操作员查询潜在的修正，然后以离线策略的方式更新策略。

该框架在现实世界环境中仅用1到2.5小时的训练时间就能实现几乎完美的成功率，并且在成功率方面比模仿学习方法平均提高了101%，周期时间快了1.8倍。

HIL-SERL在动态翻转物体任务中的表现

HIL-SERL在组装复杂设备如计算机主板任务中的表现

HIL-SERL在汽车仪表板或正时皮带组装任务中的表现

HIL-SERL与以前工作的差异

与之前的工作相比，HIL-SERL的独特之处在于：

结合了人类演示和修正来训练RL策略，而之前的SERL仅依赖于人类演示
直接使用像素输入，消除了对精确动作捕捉系统的需求
采用更紧密的感知-动作回路，学习任务相关的视觉特征和视动策略

人工参与的强化学习系统

HIL-SERL系统由三个主要组件组成：actor进程、learner进程以及重放缓冲区。在训练过程中，人类可以通过SpaceMouse介入机器人，从而接管RL策略对机器人的控制。

系统采用两个重放缓冲区：一个用于存储离线人类示范，另一个用于存储在线策略数据。学习者进程从这两个缓冲区中等量采样数据，使用RLPD优化策略，并定期将更新的策略发送给actor进程。

系统设计关键点

预训练视觉骨干网络：使用预训练的ResNet-10模型处理图像数据
奖励函数：使用稀疏奖励函数，结合人类演示和修正
夹持器控制：采用单独的价值网络来评估离散抓取动作

实验结果

研究团队在多个复杂任务中验证了HIL-SERL框架的有效性，包括主板组装、USB插拔、动态物体翻转等。实验结果显示，HIL-SERL在所有任务中均实现了100%的成功率，并且在周期时间上比模仿学习方法快了1.8倍。

通过与HG-DAgger等模仿学习方法的对比，研究团队发现HIL-SERL在较少人类监督的情况下取得了更好的性能。这主要得益于RL的关键优势，即能够自主探索并从其行动结果中学习。

现存工作的局限性与不足

虽然HIL-SERL在许多任务中表现出色，但仍存在一些局限性：

需要从头开始训练每个新任务
对显著更长时间跨度的任务的泛化能力尚待验证
随机化和非结构化环境下的泛化能力需要进一步研究

研究团队建议通过预训练价值函数和视觉基础模型来解决这些问题，并希望通过这项工作为使用强化学习解决机器人操作问题铺平道路。

热门推荐

根茎蔬菜：土豆是超级食物吗？

根茎蔬菜：土豆是超级食物吗？

《黑神话：悟空》带火的隰县小西天：一座古刹的新生

《黑神话：悟空》带火的隰县小西天：一座古刹的新生

临汾小西天：一座藏于深山的佛国仙境

临汾小西天：一座藏于深山的佛国仙境

泡沫铝在建筑装饰中的应用与发展

泡沫铝在建筑装饰中的应用与发展

邛崃到大理自驾游攻略：里程、费用及路线详解

邛崃到大理自驾游攻略：里程、费用及路线详解

大庆油田：科技创新驱动地方经济高质量发展

大庆油田：科技创新驱动地方经济高质量发展

大庆油田“绿电”破百亿，产能环保双赢！

大庆油田“绿电”破百亿，产能环保双赢！

萧山，一座“青年向往之城”

萧山，一座“青年向往之城”

重庆李子坝：轻轨穿楼与抗战遗址的完美融合

重庆李子坝：轻轨穿楼与抗战遗址的完美融合

新年必打卡：跟着杭州婷婷玩转苏杭

新年必打卡：跟着杭州婷婷玩转苏杭

新年打卡：苏杭三地文化探秘

新年打卡：苏杭三地文化探秘

杭州婷婷带你打卡苏杭绝美自然景观

杭州婷婷带你打卡苏杭绝美自然景观

跟着莹莹玩转苏杭三日游！

跟着莹莹玩转苏杭三日游！

狗狗之间是如何交流的

狗狗之间是如何交流的

预防狗狗口腔疾病的秘诀（宠物保健）

预防狗狗口腔疾病的秘诀（宠物保健）

一只狗能“闲”到什么程度？看完你就知道

一只狗能“闲”到什么程度？看完你就知道

天目山冬日仙境摄影攻略：拍出朋友圈爆赞大片！

天目山冬日仙境摄影攻略：拍出朋友圈爆赞大片！

天目山：国家级+世界级双重保护下的生物多样性守护者

天目山：国家级+世界级双重保护下的生物多样性守护者

天目山四季美景指南：春赏花夏避暑秋观红叶冬玩雪

天目山四季美景指南：春赏花夏避暑秋观红叶冬玩雪

秋冬徒步打卡：天目山七尖穿越攻略

秋冬徒步打卡：天目山七尖穿越攻略

天目山寺：千年古刹的新发现

天目山寺：千年古刹的新发现

嵩山少林寺：最全深度游攻略

嵩山少林寺：最全深度游攻略

桑茂鹏：扎根雪域高原播种“寿光模式”

桑茂鹏：扎根雪域高原播种“寿光模式”

大奇山国家森林公园：江南第一名山，天然氧吧

大奇山国家森林公园：江南第一名山，天然氧吧

沈阳著名的六大地标建筑，沈阳故宫排第一位

沈阳著名的六大地标建筑，沈阳故宫排第一位

山西长治“10大名吃”，你吃过几道

山西长治“10大名吃”，你吃过几道

长子崇庆寺十殿阎罗，为何成为《黑神话：悟空》念想？

长子崇庆寺十殿阎罗，为何成为《黑神话：悟空》念想？

长治大峡谷自驾游攻略

长治大峡谷自驾游攻略

腾冲热海：沸腾千年的地质奇观与人文胜地

腾冲热海：沸腾千年的地质奇观与人文胜地

腾冲火山地热国家地质公园：深秋探险之旅

腾冲火山地热国家地质公园：深秋探险之旅

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号