问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

李飞飞团队「具身智能」最新研究:机器人接手所有家务

创作时间:
作者:
@小白创作中心

李飞飞团队「具身智能」最新研究:机器人接手所有家务

引用
1
来源
1.
https://www.jiqizhixin.com/articles/2025-03-11-9

李飞飞团队在具身智能领域又取得了新的突破。在最新研究中,团队推出了一款名为BEHAVIOR Robot Suite(简称BRS)的新型双臂移动机器人系统,旨在攻克机器人执行通用日常家庭移动操作任务这一"圣杯"级挑战。

BRS的功能与应用场景

BRS是一个综合性的框架,专注于掌握机器人在多样化家庭任务中的移动全身操作能力。无论是倒垃圾、摆放衣物还是清洁马桶,BRS都能让机器人应对这些日常实用活动。

例如,基于BRS的机器人可以帮助用户完成以下任务:

  • 捡拾地上的垃圾
  • 将物品重新放置在架子上
  • 清洁马桶
  • 收拾餐桌
  • 从衣柜中取衣服

关键技术原理

方法介绍

论文主页:https://behavior-robot-suite.github.io/

机器人需要具备哪些关键能力才能有效执行日常家务?通过分析,研究团队确定了成功执行这些任务所必需的三项全身控制能力:双手协调、稳定精确的导航以及广泛的末端执行器可达性。

例如,搬运大型重物需要双手操作,而在房屋中检索工具则依赖于稳定精确的导航。复杂任务——如一边拿着杂货一边开门,需要协调运用这两种能力。此外,日常物品分布在不同位置和高度,这要求机器人能够相应地调整其触及范围。

经过精心设计的机器人硬件,配备双臂、移动底座和灵活躯干,是实现全身操作的关键。然而,这类复杂设计给策略学习方法带来了重大挑战,尤其是在数据采集规模化和全身协调动作方面。

为应对这些挑战,研究团队推出了BRS,旨在通过全身操作技术解决各种真实家庭任务。

BRS有两项关键创新,两者协同解决机器人硬件和学习方面的挑战:

  • JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms)
  • WB-VIMA(Whole-Body VisuoMotor Attention)

JoyLo

为实现对高自由度移动机械臂的流畅控制,同时便于为后续策略学习收集数据,研究团队推出了JoyLo——一种构建经济实惠的全身远程操作界面的通用框架。

研究团队在R1机器人上实现了JoyLo,设计目标如下:

  • 高效的全身协调控制系统,实现复杂动作的流畅衔接
  • 丰富的用户反馈机制,带来直观的远程操作体验
  • 确保高质量的示范动作,提升策略学习效果
  • 低成本实现方案,大幅提高系统可及性
  • 实时、便捷的控制器设计,确保操作无缝顺畅

项目还提到,JoyLo的成本总共不到500美元,团队还贡献了物料清单和组装说明。

WB-VIMA策略

WB-VIMA是一种模仿学习算法,旨在通过利用机器人的固有运动学层次结构来建模全身动作。

WB-VIMA的一个关键见解是,机器人关节之间存在强烈的相互依赖关系——上游链接(例如躯干)的小幅移动可能会导致下游链接(例如末端执行器)的大幅位移。为了确保所有关节之间的精确协调,WB-VIMA将下游组件的动作预测条件化于上游组件的预测,从而实现更同步的全身运动。

此外,WB-VIMA通过自注意力动态聚合多模态观察,使其能够学习表现力强的策略,同时减轻对本体感知输入的过拟合。

实验结果

实验探讨了以下问题:

  • Q1:BRS支持哪些类型的家庭任务?
  • Q2:JoyLo与其他方法相比表现如何?
  • Q3:WB-VIMA是否优于基线方法?
  • Q4:哪些组件促成了WB-VIMA的有效性?

对于问题1:BRS适用于各种家庭任务

例如,机器人可以执行扔垃圾的任务:机器人先是导航到客厅中的垃圾袋旁边,将其捡起(子任务1),然后将垃圾携带到一扇关闭的门前(子任务2),打开门(子任务3),移动到室外,并将垃圾袋放入垃圾桶(子任务4)。

又比如,机器人打扫餐桌。机器人从客厅出发,导航到厨房的洗碗机(子任务1)并打开洗碗机(子任务2)。然后,它移动到游戏桌(子任务3)收集碗(子任务4)。最后,机器人返回洗碗机(子任务5),将碗放入洗碗机内并关闭洗碗机(子任务6)。稳定且精确的导航是完成这一任务的最关键能力。

对于问题2:JoyLo能够为策略学习提供高质量的数据

研究团队对10名参与者进行了全面的用户研究,以评估JoyLo的效果及其收集数据对策略学习的适用性。下图为将JoyLo与VR控制器和Apple Vision Pro进行比较。

效率优势:

  • JoyLo整体任务成功率是VR控制器的5倍(Apple Vision Pro无人完成全任务)
  • 中位完成时间较VR控制器缩短23%
  • 在铰接物体操作等精细任务中表现突出

用户体验:

  • 所有参与者最终评价JoyLo为最友好交互
  • 70%用户最初认为IK更直观,但实操后偏好逆转
  • 用户反馈IK方法在移动底座/躯干控制上存在显著困难

用户研究参与者的人口统计数据和调查结果。

对于问题3:WB-VIMA始终优于基线方法

实验显示,WB-VIMA在所有任务中全面超越基准方法:端到端任务成功率比DP3高13倍,比RGB-DP高21倍;平均子任务表现分别优于DP3(1.6倍)和RGB-DP(3.4倍)。

五项代表性家庭活动的成功率。「ET」表示整个任务,「ST」表示子任务。

评估期间的安全违规情况。WB-VIMA与环境物体的碰撞极少,且几乎不会因施加过度力量而导致电机失去动力。

对于问题4:WB-VIMA组件对任务性能的影响

研究团队针对WB-VIMA展开消融实验,分别移除自回归全身动作去噪和多模态观察注意力机制模块。实验表明,任一组件缺失均导致性能显著下降:在「将物品放上架子」及「整理衣物」任务的「打开衣柜」子任务中,移除自回归去噪模块使成功率骤降53%;而多模态注意力机制缺失则全面削弱各任务表现。

「放置物品到架子上」和「铺展衣物」任务的消融实验结果。

最后,研究团队还展示了几个失败案例。包括:

  1. 尽管机器人已经抓住把手,但未能完全打开洗碗机
  2. 未能按下冲水按钮
  3. 未能从地板上拾起垃圾袋
  4. 未能抬起地上的箱子
  5. 未能关闭衣柜门

了解更多内容,请查看原论文。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号