问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

最新具身智能综述

创作时间:
作者:
@小白创作中心

最新具身智能综述

引用
1
来源
1.
http://www.360doc.com/content/24/0728/15/32196507_1129886162.shtml

具身智能是实现通用人工智能(AGI)的重要途径,它使智能体能够感知、认知并与数字空间和物理世界中的各种物体互动。本文将全面回顾具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的机器人控制以及未来的研究方向,为推动具身智能的发展提供重要参考。

前言

具身AI最初由艾伦·图灵在1950年提出“具身图灵测试”,目的是测试智能体是否能够在复杂和不可预测的物理世界中导航,而不仅仅是解决虚拟环境中的抽象问题。与虚拟空间中的无具身AI相对,物理空间中的智能体被称为具身智能。MLMs的最新进展为具身智能注入了强大的感知、交互和规划能力,使其能够积极与虚拟和物理环境互动。具身智能被认为是MLMs的最佳载体,最近代表作是RT-2和RT-H。但MLMs在长期记忆、理解复杂意图和分解复杂任务的能力方面仍有限。

为了实现AGI,具身智能发展被视为一个基本途径。与像ChatGPT这样的对话agents智能体不同,具身智能认为通过控制物物体并与模拟和物理环境互动,才能实现真正的AGI。智能体是具身智能的基础,必须理解语言指令、感知环境并执行复杂任务。多模态模型的发展迅速,在复杂环境中表现出优越的灵活性、技巧和泛化能力。先进的视觉编码器和大型语言模型(LLMs)使机器人更好地理解语言指令并感知复杂环境。下图为基于MLM和WM的具身智能体框架。

智能体AI的发展引起了研究社区的显著关注,并被认为是实现AGI的可行途径。尽管如此,研究社区仍缺乏一份全面的调查,帮助整理现有的智能体AI研究、面临的挑战以及未来的研究方向。尽管已有多篇综述论文针对具身智能,但大多数论文已经过时,因为它们是在2023年前发布的MLMs时代之前。2023年之后只有一篇综述论文专注于视觉-语言-动作具身智能模型,但MLMs、WMs和具身智能体并未得到充分考虑。

本研究提供了一个全面的综述,涵盖了具身智能的各个方面,上图为综述关于具身智能的整体框架,具体包括以下几个部分:

  • 具身机器人,具身智能在物理世界中的硬件方案;
  • 具身仿真平台,高效且安全地训练具身智能体的数字空间;
  • 具身感知,主动感知 3D 空间并综合多模态感知;
  • 具身交互,有效合理地与环境进行交互甚至改变环境以完成指定任务;
  • 具身智能体,利用多模态大模型理解抽象指令并将其拆分为一系列子任务再逐步完成;
  • Sim2Real,将数字空间中学习到的技能迁移泛化到物理世界中

具身机器人

具身机器人积极地与物理环境互动,涵盖了从机器人到智能家电、智能眼镜、自动驾驶车辆等广泛的具身形态,而机器人也是最突出的具身形态之一。根据应用的不同,机器人被设计成各种形式,以利用其硬件特性来完成特定的任务。

主要有以下类别:

  • 固定底座机器人如机械臂,由于其紧凑性和高精度操作,在实验室自动化、教育培训和工业制造中得到了广泛应用。
  • 轮式机器人,以其高效的机动性而广受欢迎,被广泛应用于物流、仓储和安保检查中。
  • 履带式机器人,具有强大的越野能力和机动性,在农业、建筑和灾害恢复领域显示出潜力。
  • 四足机器人,因其稳定性和适应性而特别适合于复杂地形探索、救援任务和军事应用。
  • 人形机器人,外部形态与人类似,在服务业、医疗保健和协作环境中广泛应用。
  • 仿生学机器人,通过模拟自然生物的有效运动和功能,在复杂和动态的环境中执行任务。

仿真平台

仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验方式,确保了通过模拟潜在的危险场景的安全性,为测试在各种环境中提供了可扩展性,快速原型设计的能力,对更广泛的研究社区的可访问性,精确研究的受控环境,用于训练和评估的数据生成,以及用于算法比较的标准基准。

为了使智能体能够与环境互动,有必要构建一个现实的模拟环境。这需要考虑环境的物理特性,物体的属性以及它们之间的相互作用。文中主要介绍两种仿真平台,

  • 通用仿真平台,提供了一个虚拟环境,它与物理世界紧密相似,允许进行算法开发和模型训练,这为AI技术的发展提供了显著的成本、时间和安全优势。包含Isaac、Gazebo、Mujoco等
  • 基于真实场景的仿真平台,大多应用于嵌入式AI领域。收集真实世界的数据,创建逼真的3D资产,并使用3D游戏引擎,如UE5和Unity,构建场景。

具身感知

未来的视觉感知“north stars”以具身为中心的视觉推理和社会智能。与仅仅识别图像中的对象不同,具有具身感知的智能体必须在物理世界中移动并与环境互动。这需要对3D空间和动态环境的更深层次理解。具身感知需要视觉感知和推理,理解场景中的3D关系,并根据视觉信息预测和执行复杂的任务。

主要内容如下:

  • 主动视觉感知,进行状态估计、场景感知和环境探索。包含
  • 视觉定位和地图构建(SLAM)技术,它在不了解环境的情况下确定移动机器人的位置,同时构建该环境的地图
  • 3D场景理解,3D场景理解旨在区分物体的语义,识别它们的位置,并从3D场景数据中推断几何属性
  • 主动探索,在被动感知的基础上,由于机器人具有移动能力和频繁与周围环境互动的能力,它们也能够主动探索和感知其环
  • 3D视觉定位(3DVG),任务涉及使用自然语言在3D中定位物体。包含
  • 两阶段3DVG,分为物体检测阶段和语义理解后物体匹配阶段
  • 一阶段3DVG,则是将上述两阶段合并
  • 视觉语言导航(VLN),旨在使智能体能够在未知的环境中遵循语言指令进行导航。
  • 触觉传感器,为智能体提供关于纹理、硬度以及温度的详细信息。

具身交互

具身交互指的是智能体在与人类和环境在物理或模拟空间中交互的情景。典型任务包含:

  • 具身问答(EQA),智能体需要从第一人称视角探索环境以收集回答给定问题所需的信息。具有自主探索和决策能力的智能体不仅需要考虑采取哪些行动来探索环境,还需要确定何时停止探索以回答问题。

  • 具身抓取。除问答互动外,抓取指的是根据人类指令执行操作,如抓取和放置物体,从而完成机器人、人类和物体之间的互动。具身抓取需要全面的语义理解、场景感知、决策制定和稳健的控制规划。

具身智能体

具身智能体是指能够感知其环境并采取行动以实现特定目标的自主物体。机器学习模型(MLM)的最新进展进一步扩展了智能体的应用范围到实际场景中。当这些基于MLM的智能体被赋予实际物体时,它们可以将自己的能力有效地从虚拟空间转移到物理世界,从而成为具身智能体。

为了使具身智能体能够在信息丰富且复杂的现实世界中运作,已经开发了具有强大多模态感知、交互和规划能力的具身智能体如下图所示。为了完成一个任务,具身智能体通常涉及以下过程:

  • 高层具身任务规划,将抽象且复杂的任务分解为具体子任务。
  • 低层具身动作规划,通过有效地利用具身感知和具身交互模型,或者利用基础模型的策略功能,逐步实施这些子任务,这被称为。

这里需要注意的是,任务规划涉及在行动之前思考,因此通常在网络空间中考虑。相比之下,动作规划必须考虑到与环境的有效互动,并将此信息反馈给任务规划者以调整任务规划。因此,对于具身智能体来说,将能力从网络空间转移到物理世界是非常重要的。

主要内容包括:

  • 具身多模态模型,通过视觉识别其环境,通过听觉理解指令,并通过理解自身的状态来促进复杂交互和操作。这要求一个模型能够整合多种感官模态和自然语言处理能力,通过综合多种数据类型来增强智能体的理解和决策能力。
  • 具身任务规划,任务动作通常在模拟器中预先定义,或者在真实世界场景中使用预先训练的策略模型执行。如一个任务“将苹果放在盘子上”,任务规划器将会将其分解为子任务“找到苹果,拿起苹果”,“找到盘子”,“放下苹果”。由于如何找到(导航任务)或拿起/放下动作(抓取任务)并不在任务规划的范围内。
  • 具身行动规划,行动规划必须应对现实世界的不确定性,因为任务规划提供的子任务粒度不足以引导智能体在环境中的交互。一般来说,智能体可以通过两种方式实现行动规划:
  • 使用预训练的具身感知和具身交互模型作为工具,通过API逐步完成任务规划指定的子任务;
  • 利用VLA模型的固有功能来推导行动规划。

Sim2Real

仿真到现实关注于如何将仿真环境中训练和测试得到的机器人或自动化系统策略,有效地迁移到现实世界中去应用。它涉及验证和改进在模拟中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中表现稳健和可靠。

一般包含三部分内容:

  • 具身世界模型,(Sim-to-Real)涉及在模拟中创建与现实世界环境密切相似的世界模型,帮助算法在转移时更好地进行泛化。世界模型方法旨在构建一个端到端的模型,该模型将视觉映射到动作,甚至可以映射任何输入到任何输出,通过以生成或预测的方式预测下一个状态来做出决策。注意与VLA模型的区别
  • 数据搜集和训练,主要用于高质量数据获取,包含真实数据和模拟数据
  • 具身控制,通过与环境的交互学习,并使用奖励机制优化行为以获得最佳策略,从而避免了传统物理建模方法的缺点。包含DRL和模仿学习

挑战和未来发展方向

尽管具身智能取得了迅速的进步,但它面临着若干挑战,并预示着激动人心的未来发展方向。

  • 高质量的机器人数据集:获取足够数量的真实世界机器人数据仍然是一个重大挑战。收集这些数据既耗时又耗资源。单纯依赖模拟数据加剧了“模拟到现实”差距问题。创建多样化的真实世界机器人数据集需要各机构之间密切且广泛的合作。此外,开发更真实、更高效的模拟器对于提高模拟数据的质量至关重要。当前的工作RT-1 使用了基于机器人图像和自然语言命令的预训练模型。RT-1在导航和抓取任务中取得了良好的结果,但获取真实世界机器人数据非常困难。为了构建能够在机器人跨场景和跨任务应用中具有一般化能力的模型,构建大规模的数据集至关重要,利用高质量的模拟环境数据辅助真实世界的数据。
  • 有效利用人类示范数据:有效利用人类示教数据涉及利用人类演示的动作和行为来训练和改进机器人系统。这一过程包括收集、处理和从大型、高质量的数据集中学习,其中人类执行机器人旨在学习的任务。当前的工作R3M使用动作标签和人类示教数据来学习具有高成功率的泛化表征,但复杂任务的高效性仍然需要改进。因此,有效地利用大量未结构化、多标签和多模态的人类示教数据以及动作标签数据来训练具有各种任务学习能力的具身模型至关重要。通过有效利用人类示教数据,机器人系统可以在相对较短的时间内实现更高的性能和适应性,使它们能够在动态环境中更有效地执行复杂任务。
  • 复杂环境认知:复杂环境认知指的是物理或虚拟环境中具身智能体感知、理解和在复杂现实世界环境中导航的能力。基于广泛常识知识,Say-Can 利用预训练的LLM模型任务分解机制,该机制在为简单任务规划时严重依赖大量常识知识,但在复杂环境中缺乏对长期任务的理解。对于无结构的开放环境,当前的工作通常依赖于利用大量常识知识对预训练的LLM模型进行任务分解,但对于具体场景的理解则缺乏。在复杂环境中增强知识转移和概括能力至关重要。一个真正多功能的机器人系统应该能够理解和执行跨多样化和未见场景的自然语言指令。这需要开发可适应和可扩展的具身智能体架构。
  • 长期任务执行:对于机器人来说,执行单个指令往往涉及到长期的任务,例如命令“清洁厨房”,这涉及到活动如重新排列物体、扫地、擦桌子等。成功完成这样的任务需要机器人能够规划并执行一系列低级动作,持续时间较长。尽管目前的高级任务规划者已经显示出初步的成功,但它们在多样化的场景中往往因为缺乏针对有形任务的调校而显得不足。解决这一挑战需要开发高效的规划者,配备有强大的感知能力和大量的常识知识。
  • 因果关系发现:现有基于数据驱动的具身智能体决策是基于数据内部的固有相关性。然而,这种建模方法并不允许模型真正理解知识、行为和环境之间的因果关系,导致策略存在偏见。这使得确保它们能够在可解释、健壮和可靠的方式下在真实世界环境中运行变得困难。因此,对于具身智能体来说,被世界知识驱动,能够进行自主的因果推理是非常重要的。通过互动了解世界并通过归纳推理学习其工作机制,我们可以进一步增强在复杂真实世界环境中多模态具身智能体的适应性、决策可靠性和泛化能力。对于具身任务,通过交互式指令和状态预测在模态之间建立空间-时间因果关系是必要的。此外,智能体需要理解物体的 affordances来实现适应性任务规划和动态场景中的长距离自主导航。为了优化决策制定,有必要结合反事实和因果干预策略,从反事实和因果干预的角度追踪因果关系,减少探索迭代并优化决策。基于世界知识构建因果图,并通过主动因果推理实现模拟到现实的智能体转移,将形成一个统一的具身智能框架。
  • 持续学习:在机器人应用中,持续学习[389]对于在多样化的环境中部署机器人学习策略至关重要,但这一领域仍然是一个未被充分探索的领域。尽管一些最近的研究已经考察了持续学习的一些子话题,如增量学习、快速运动适应和人类参与式学习,但这些解决方案通常是为单一任务或平台设计的,尚未考虑基础模型。开放的研究问题和可行的方法包括:1) 在对最新数据进行微调时,混合不同比例的先验数据分布,以缓解灾难性遗忘;2) 开发从先验分布或课程中获取的效率更高的原型,以在新任务中进行任务推断;3) 提高在线学习算法的训练稳定性和样本效率;4) 识别无缝将大型容量模型集成到控制框架中的原则方法,可能通过层次学习或慢-快控制,以实现实时推断。
  • 统一评估基准:尽管存在许多用于评估低级控制策略的基准,但这些基准往往在评估的技能方面存在显著差异。此外,这些基准中包含的物体和场景通常受限于模拟器的限制。为了全面评具身智能模型,需要涵盖广泛技能并使用真实模拟器的基准。至于高级任务规划者,许多基准侧重于通过问答任务评估规划能力。然而,更理想的方法是评估高级任务规划者和低级控制策略的组合,以执行长期任务并测量成功率,而不是仅依赖于对规划者的孤立评估。这种集成方法提供了一个更全面的评估具身智能系统的能力。

总之具身智能使智能体能够感知、认知并与数字空间和物理世界中的各种物体互动,显示了其在实现通用人工智能方面的重要意义。本综述全面回顾了具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的机器人控制以及未来的研究方向,这对沿着促进具身智能的发展具有重要意义。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号