武大最新成果:具身智能目标导航新方案,成功率提升23%,路径效率优化31%
武大最新成果:具身智能目标导航新方案,成功率提升23%,路径效率优化31%
目标导航是具身智能领域的关键挑战,要求智能体在陌生环境中基于视觉感知自主定位特定物体。当前研究面临双重瓶颈:一方面传统视觉表征难以捕捉动态环境中的物体关联关系,另一方面强化学习的稀疏奖励机制易使策略陷入局部最优。本文创新性地提出双路径解决方案——通过上下文感知图推理(CGI)构建动态关系图谱,突破性地将知识图谱中的TransH方法引入视觉表征学习,在图像、动作、记忆多模态数据驱动下建立类别邻近与空间关联模型;同时设计生成对抗模仿学习(GAIL)框架,利用专家轨迹构建动态奖励函数,有效破解传统方法因环境反馈迟滞导致的策略僵化问题。
在AI2-Thor和RoboThor平台的实验表明,该方法使导航成功率提升23%,路径效率优化31%,为家庭服务机器人、灾难救援等场景提供了可解释的导航范式,推动了具身智能在开放环境中的实际应用进程。该论文在国际机器人TOP期刊IEEE RA-L发表。
研究背景与挑战
物体-目标导航旨在在未知环境中,基于第一视角的视觉观测,引导智能体找到指定目标物体。该过程不仅要求智能体识别物体(例如识别遥控器的外观),还需理解物体可能被放置的位置。与人在陌生环境中导航的过程类似,智能体需要记住物体摆放方式,并据此构建一个用于快速查找目标物体的“对象图”。例如,“若要找到遥控器”,智能体可先根据对象图中“遥控器在电视机附近”这类关系定位体积更大的电视机,然后在电视机附近搜索遥控器。然而,由于摆放复杂多样,智能体也可能在过程中失去目标或卡住。因此,如何学习包含对象图的高信息量视觉表征以及有效的导航策略,成为两大关键问题。
在视觉表征方面,已有研究通过构建对象图来丰富视觉信息,例如“闹钟在床边”。然而,这些方法在编码对象之间关系时,并未考虑导航过程中智能体与环境交互所带来的动态情境(如图像、动作和记忆)的影响。举例而言,“若要找到笔记本电脑”,此前常用的“笔记本电脑在桌子上”关系可能在实际场景中被不断更新,当智能体在探索中看见笔记本电脑实际放在椅子上时,原先的关系就不再准确。这种情况突显出在导航过程中,基于上下文信息学习具有情境适应性的对象关系之必要性。另一方面,在导航策略方面,一些研究使用无监督强化学习来训练导航策略,另一些研究则通过元学习在环境变化时对策略进行自适应。然而,无论是强化学习还是元学习,均面临“无区分度回报”的难题:在每个决策步骤结束后,智能体收到的往往是相同的负回报,难以得到有效反馈,从而无法及时避免重复或卡住的行为,尤其是在物体摆放复杂的环境中,智能体学习高效导航策略更具挑战。
解决方案与创新
为解决上述问题,该研究提出了两种互补的技术:情境感知图推理(Context-Aware Graph Inference,CGI)与生成式对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)。其中,CGI在导航过程中以图像、动作和记忆等动态上下文信息为指导,学习可随时变化的对象关系,并在每个时刻借助TransH方法将对象投影到相应上下文的表示空间中。同时,CGI还设计了图注意力层,以帮助智能体聚焦于更具价值的关系,从而缩小搜索范围。GAIL则通过专家演示数据学习动态奖励函数,并与环境奖励相结合,使智能体学会躲避卡住等失败状态,并学习有效的导航策略。最后,该研究将标准的异步优势演员-评论家算法(A3C)与GAIL相融合,共同训练导航策略。由于该方法具有通用且模块化的特性,能够与其他导航方法相结合。实验结果显示,CGI与GAIL的结合显著提升了在未知环境中的导航效果与效率。
该论文的主要贡献如下:
该研究提出了适用于室内环境的CGI方法,可在导航过程中根据图像、动作和记忆的动态变化来推断对象关系,并利用图注意力层对关系进行编码,帮助智能体聚焦于更具价值的关系。
该研究提出了GAIL以改进导航策略,通过在专家演示的基础上设计动态奖励,克服物体-目标导航中常见的“无区分度回报”问题,并鼓励智能体执行更有效的动作。
该研究将CGI与GAIL相结合,并使用A3C算法对导航策略进行稳健训练。实验表明,该方法在未知环境中的导航效率和成功率均得到显著提升。
图1|全文方法总览
具体方法与实现
如图1 所示为提出的导航框架概述。该框架由三个部分组成:视觉表征、导航策略和GAIL。视觉表征结合了从ResNet18中提取的视觉特征和从CGI中获得的图特征。CGI通过将物体特征投影到当前图像、先前动作和先前隐藏状态(即记忆)的表示空间中,推断出上下文感知的物体关系。在开始介绍文章的方法实现之前,先来明确一下整体的任务定义,让不太了解视觉语言导航任务的读者小伙伴们也可以快速入门:物体-目标导航要求智能体在给定环境中,找到指定目标物体。导航过程中,智能体只能从第一视角获取RGB图像,并根据观测结果来预测下一步动作。智能体无法访问全局环境信息(如地图),而环境被划分为网格,每个网格代表一个独立的位置。可执行的动作包括:前进(MoveAhead)、左转(RotateLeft)、右转(RotateRight)、向上看(LookUp)、向下看(LookDown)以及结束(Done)。其中,前进动作会让智能体向前移动固定距离,左右转动作会让智能体分别向左或向右旋转一定角度,向上看和向下看分别会调整智能体摄像头的俯仰角度。
在预设的最大步数内,若智能体执行了结束动作(Done),并且此时目标物体出现在智能体视野里,且与目标物体的距离小于指定阈值(如1.5米),则该回合被视为成功,否则判定为失败。
情境感知图推理(CGI)
在物体-目标导航中,智能体只能获取有限的第一视角信息。因此,学习高信息量的视觉表征至关重要。该研究受到人类导航启发,提出通过整合对象关系(如类别相似度与空间关联)来帮助智能体理解当前环境,并利用图注意力机制实现更有效的导航。
- 构建对象图
为了利用环境中的空间语义信息,该研究使用DETR检测器对RGB图像中的感兴趣目标进行检测,包括边界框、置信度、类别标签等信息。每个检测到的物体作为图中的一个节点,不同物体节点通过边来表示其相互关系,并构建形成对象图。该研究将对象特征(如256维的视觉特征、边界框坐标、置信度和一热目标向量等)拼接得到节点的初始特征,从而获得一个无向、完全连通的对象图。
- 动态对象关系
由于智能体在导航过程中与环境不断交互,该研究进一步结合图像、动作和记忆等多种动态上下文,采用TransH方法来推断对象间的动态关系。具体而言,智能体会将每个对象特征投影到“图像特征”“前一步动作”“前一时刻隐藏状态”等不同超平面上,分别得到相应的关系权重,并通过加权融合来获得最终的对象关系。这种情境感知的机制使得对象之间的关联可随导航过程不断更新。
- 图注意力编码
计算得到的融合关系会用于图注意力层(Graph Attention Layer, GAT),从而聚焦于更具价值的关系。该方法对每个节点特征执行加权求和并激活,使得智能体能够利用当前时刻最相关的对象关系,从而缩小搜索范围、提高导航效率。
图2|CGI的投影过程:CGI将物体特征投影到图像、动作和记忆的表示空间中,以计算物体之间的关系。
基于Transformer的视觉表征
在得到融合后的对象关系后,该研究设计了基于Transformer的视觉解码器来提取视觉与图表示间的对应关系。对象图的特征首先被投影至低维空间,然后在视觉解码器中与视觉特征进行对齐。为有效利用空间位置信息,视觉特征添加了位置嵌入(positional embedding),并通过多头注意力机制分别对视觉特征和图特征进行处理,得到更具信息量的视觉表征。这样一来,智能体不仅能利用常规的图像信息,还能考虑对象之间的空间关联与上下文关系。
图3|基于Transformer的视觉表征概述:图特征通过视觉特征进行解码,生成本研究中需要的信息丰富的视觉表征。
生成式对抗模仿学习(GAIL)
在强化学习中,物体-目标导航往往存在“无区分度回报”的问题:智能体在大多数时间步都只得到相同的负回报,不利于区分重复或卡住等不良行为。为此,该研究提出基于生成式对抗模仿学习(GAIL)的奖励机制,用以引导智能体学习更为稳健的导航策略。
- 专家示例
该研究利用Dijkstra最短路径算法生成专家演示轨迹,将状态-动作对作为GAIL的对抗训练数据;生成器对应于智能体的导航策略,鉴别器则用于区分真实专家演示与智能体策略产生的行为分布。
- 动态奖励
当鉴别器无法区分专家数据与智能体数据时,即表明智能体的行为分布已接近专家水平。该研究将鉴别器的输出作为一项额外的奖励信号,与环境中的基础奖励相结合,令智能体在获得专家式导航行为的同时,也能兼顾效率与探索能力。通过这种方式,智能体可在复杂环境中规避陷入死循环或重复撞障的情况,达到更有效的导航。
导航策略
基于上述视觉表征和奖励机制,该研究将所提出的动态奖励函数整合到异步优势演员-评论家(A3C)算法中,用以训练导航策略。在训练过程中,智能体不断通过视觉表征网络(包括CGI与基于Transformer的解码器)获取环境状态,然后在LSTM网络中维持隐藏状态作为记忆。智能体的动作输出通过策略网络产生,并根据环境与鉴别器所提供的综合奖励来进行反向传播更新。最终,智能体逐渐学会高效、稳健的导航策略。
通过将CGI与GAIL相结合,该研究在保持方法通用与模块化的同时,为物体-目标导航提供了显著的性能提升。该研究的实验结果表明,两者协同工作能有效提升未知环境中的导航成功率与效率。
实验结果与分析
实验部分旨在全面验证所提出方法在陌生环境中的目标导航性能。作者通过定量和定性分析,分别在AI2-Thor和RoboThor环境中对比了所提方法与现有方法的性能差异,并深入探讨了各关键组件对整体性能的贡献。定量结果表明,所提方法在成功率(SR)和路径长度加权成功率(SPL)上均显著优于其他方法,尤其是在长距离导航任务中表现出色。定性可视化分析进一步揭示了该方法在复杂场景中的高效搜索能力,能够显著减少无效运动并快速定位目标。此外,消融实验验证了情境感知图推理(CGI)和生成式对抗模仿学习(GAIL)等核心组件的必要性,表明多维度情境信息整合和动态奖励机制是提升导航性能的关键。以下将详细介绍实验设置、结果与分析。
图4|AI2与Robothor实验环境定量实验结果。
如图所示,该研究的方法在陌生环境下的表现优于现有其他方法。在 AI2-Thor 环境中,该研究的方法在所有轨迹(ALL)上取得了最高的成功率(SR)和最高的路径长度加权成功率(SPL),并且在仅考虑最优路径长度大于等于 5 的轨迹(L≥5)时,同样在 SR 和 SPL 两个指标上均取得领先,超过了其他同类方法。在 RoboThor 环境中,该研究的方法同样在 ALL 和 L≥5 这两类轨迹上取得最优结果,并且相比其他方法在成功率和效率上均有明显提升。
相比之下,其它方法要么缺乏对象图的支持,要么在对象关系推理、导航策略学习方面不足,因而在陌生场景下往往会陷入多次转向或过早结束等问题。该研究不仅在视觉表征中利用了情境感知图推理(CGI),还能通过生成式对抗模仿学习(GAIL)针对复杂的环境布置赋予智能体更具区分度的奖励信号,从而在长距离导航上也能保持较高的成功率和效率。
图5|实验轨迹可视化。
图6|在RoboThor环境中,陌生场景下智能体轨迹的可视化。红色线条表示智能体的运动轨迹,黄色方框标注了目标物体的位置。
如图 6 和图 7 所示,该研究的方法与其他两种方法(如 L-sTDE 和 AKGVP-CI)在陌生场景下的导航轨迹进行了可视化对比。可见,对于一些难以观测到目标物体的初始位置,其他方法常出现过多的旋转或过早结束而导致失败。相比之下,该研究的方法能够更快地在关键区域搜索目标物体,并显著减少无效运动。例如,图 4 第一行和第四行中,当需要在厨房和浴室分别寻找咖啡机与电灯开关时,其他方法会执行多次不必要的旋转或转向,而该研究的方法能迅速找出更短的路径。图 6 中还进一步展示了一些额外的可视化示例,即使在较大场景或者目标物体较小的情况下,该研究的方法依然可以高效收敛到目标区域。
图7|消融实验结果
该研究还对不同组件进行了消融实验,结果见图7。若去掉情境感知图推理(CGI),或者去掉基于 Transformer 的视觉解码器,性能都会大幅下降;去掉 GAIL 时,智能体在有效避障及脱离死循环方面也明显退化。此外,分别移除图像感知关系、动作感知关系和记忆感知关系时,成功率与效率均受到不同程度影响,其中图像感知关系对性能贡献最为显著。
总结与展望
该研究提出了面向物体-目标导航的情境感知图推理(CGI)与生成式对抗模仿学习(GAIL)。得益于所提出的CGI,智能体能够在导航过程中根据图像、动作和记忆等动态上下文信息灵活推断对象关系。结合图注意力网络,CGI能够让智能体将注意力集中在更加关键的对象关联上,从而有效缩小搜索范围。与此同时,通过GAIL生成动态奖励并与环境奖励相结合,智能体可以在专家示例的指引下学会更稳健的导航策略,从而避免陷入卡住或循环运动等失败状态。最后,研究将A3C强化学习算法与GAIL相结合,以实现稳定的策略训练。该方法结构清晰且具有良好的模块化特性,因此可与其他导航方法配合使用。实验结果表明,CGI与GAIL的结合能显著提升智能体在陌生环境中的导航效率与成功率。
该研究的未来工作方向包括进一步探讨对象图在对象数目大幅增加时的扩展性和高效性;同时,如何在现实场景(如具有复杂地形及动态障碍的真实室内环境)中部署并缩小模拟与真实环境(sim2real)的差异,亦是值得深入研究的课题。