资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

RoboMM：用于机器人操作的一体化多模态大模型

创作时间:

作者:

@小白创作中心

RoboMM：用于机器人操作的一体化多模态大模型

引用

CSDN

https://blog.csdn.net/yorkhunter/article/details/144560619

近年来，机器人技术通过整合更大的模型和大规模数据集取得了长足的进步。然而，将这些模型应用于3D空间交互和管理数据收集成本方面仍然存在挑战。为了解决这些问题，美团提出了一种多模态机器人操作模型RoboMM以及综合数据集RoboData。

RoboMM：一体化多模态大模型

近年来，机器学习经历了深刻的进步，从CLIP [53, 67]的问世到GPT系列[1, 8, 9]、Llama [59, 60]、LLaVA [37]和Flamingo [2, 3]等基础模型的发展。这些进步很大程度上归功于更大的基于Transformer架构和“互联网规模”数据集的利用[11, 13, 14, 36]。这些创新不仅拓展了自然语言处理[16]和计算机视觉[22, 54]的前沿，而且还激励研究人员将这些模型集成到具身人工智能(EAI)[49]中，从而实现现实环境中更复杂、更多样化的任务。

在建模方面，人们逐渐从单任务或单数据集学习[42, 57, 67]转向迁移学习方法[7, 25, 30, 35, 58, 61]。这些模型利用在大量“互联网规模”数据集或多种数据源上进行预训练的稳健基础模型。随后，它们在特定的机器人数据集上进行微调，以产生精确的控制动作。在数据方面，研究人员通过各种方式收集数据来增强模型。例如，Open X-Embodiment [51]合并包含视觉-语言-动作对的不同数据集，而RH20T [18]通过遥操作收集数据。尽管这些努力具有令人印象深刻的稳健性，但它们在实际应用中仍然面临重大挑战。

首先，将多模态模型直接应用于EAI是最佳解决方案吗？机器人必须与物理3D空间交互；然而，目前的多模态模型主要侧重于二维图像的理解和生成，这可能会限制其实际应用。其次，解决数据集构建的成本和效率问题是否必不可少？例如，从RT-1 [6]收集大约130,000个事件需要17个月。因此，必须尽可能多地整合行业现有的多平台、多机器人数据集，以解决这一紧迫问题。

机器人数据集

在机器人研究的早期阶段，通常需要为每个机器人、任务和环境收集特定的数据集，例如RLBench [26]和CALVIN [41]。虽然这些数据集高度定制且质量很高，但数量有限且泛化能力较差。为了进一步提高模型性能和泛化能力，研究人员通过遥操作方法收集了大量数据，例如RT-1 [6]和RH20T [18]。这些大规模数据集涵盖了更多的场景和任务，支持多任务学习，但也带来了高昂的数据注释成本。随着研究的进展，已经提出了集成多个数据集的方法，例如Open X-Embodiment [51]和DROID [28]，通过合并来自不同来源的数据来提高模型泛化和数据利用效率。然而，这些方法也面临数据不一致和潜在偏差的问题。

机器人策略

以前的研究，如R3M [46]、VC-1 [38]、ACT [67]和HULC++ [42]通常采用具有少量参数的策略。后续模型，如RoboFlamingo [33]、Corki [25]和RoboUniView [35]都建立在多模态大型模型上，但仅在有限的数据集上进行了微调。尽管多任务学习和小样本学习取得了进展，但最近的模型（如RT-X [51]、Octo [58]、HPT [61]、CrossFormer [17]、GR-2 [10]和OpenVLA [30]）已经在各种数据集上训练了视觉-语言-动作机器人策略。然而，这些工作通常对来自真实机器人[18, 28]、人类视频[20, 46]和模拟域[41, 68]的数据进行预训练，忽略了物理空间的均匀性，并且仅在特定数据集上进行微调后才能获得良好的性能。鉴于机器人在3D物理环境中运行，它们的感知和交互能力必须集成3D感知，类似于自动驾驶系统的要求。

多模态大型语言模型(MLLM)通常由三个主要组件组成：模态编码器(Enc)、适配器(Adapter)和大型语言模型(LLM)，数学表示如下：

这里WE表示词嵌入层。模态编码器将单模态输入转换为适当的表示。例如，图像编码器从输入图像I中提取特征F/I。常见的视觉编码器（如CLIP [53]）在图像-文本对上进行预训练，对齐视觉和文本语义，以便于与LLM集成。适配器将视觉和其他模态的特征映射到LLM可以理解的输入U。例如，Blip2 [32]使用Q-Former进行特征交互；LLaVA [37]使用MLP将视觉特征与文本特征对齐。大语言模型是框架的核心组件，本文称为特征融合解码器。它通常采用自回归模型，例如LLaMA [59]或GPT [1]，以及交叉注意模型，例如Flamingo [2]或LLaMA3.2 [44]。该模型将特征表示U与从词嵌入层提取的文本特征F/T融合，生成最终的文本输出O/T。这种特征集成增强模型生成上下文相关响应的能力。

网络架构

如图所示RoboMM的架构。视觉编码器模块用于提取多视图特征，适配器模块利用占用监督来统一特征并增强空间感知，基于LLM的特征融合模块用于合并文本和视觉信息，多模态解码器模块通过多模态输出增强细粒度感知和理解。

对于基于语言指令T的机器人操作任务，通常依赖于来自N个视角的H个时间步历史帧I，该任务可以用数学表示为O/A = Θ(I, T)。本文结合MLLM的原理，提出一种新型的原生多模态机器人操作模型RoboMM，该模型具有3D环境感知能力，可处理多模态输入（文本T、视觉I、相机参数Cam）和输出（动作O/A、图像O/I、占用O/o）：

RoboMM由以下关键组件组成：（1）视觉编码器模块：用于从H个时间步长和N个视角提取观察特征F^h,n/I。（2）3D感知适配器模块：通过集成相机参数增强物理空间感知。（3）基于大语言模型的特征融合解码器：融合文本和视觉信息以输出多模态特征，并使用模态-隔离-掩码（MIM）增加模态融合的灵活性。（4）多模态解码器模块：通过多模态输出增强模型的细粒度感知和理解。值得注意的是，由于MIM，O/I、O/o是可选输出。

适配器

用RoboUni-View [35]中的UVFormer，这是一个简单但功能强大的3D环境感知模型。UVFormer将图像特征X^h = {F^h, n/I}、相机参数Cam^h ={Cam^h,n}和可学习的统一视图查询Q作为输入，并输出统一视图表示U^h/I：

这里，Q = {Pos,Emb}，Pos和Emb分别表示查询的位置和可学习的特征。L、B和P定义机器人操作空间内3D网格的空间形状。具体而言，Emb/l,b负责统一视图空间中相应的pillar单元区域。U^h/I是统一视图表示，包含L × B × P 3D网格中的所有相关信息。

特征融合解码器

由于需要支持多帧或视频输入，放弃LLaVA [36]中使用的自回归（AR）机制，采用OpenFlamingo [3]和交叉注意作为特征融合解码器。它通过交叉注意层将统一的视觉表示与语言和其他模态占位符集成在一起。

（a）为了支持多模态输出，我们首先构建文本序列T′，其中包括文本和多模态读出tokens：

这里，T’，T/simg，T/gimg，T/occ，T/act分别代表静态图像，手腕图像，占用和动作的读出tokens。Lh表示T^h的长度。T/img用于指示原始图像的位置。T/simg，T/gimg，T/occ各使用8个tokens。然后，将构建的文本序列输入到词嵌入层以获得文本特征：

（b）注意融合：继续使用OpenFlamingo [3]中的交叉注意，融合视觉和文本特征，其中文本特征Fh/T作为查询，视觉特征U^h/l作为K和V。值得注意的是，自注意层结合了MIM，它允许使用辅助模态监督进行训练并在推理过程中省略不必要的模态，从而显著提高模态融合的灵活性。

多模态解码器

设计了不同的解码器模块来适应各种模态。如图所示多模态解码器概述。（a）图像解码器，（b）占用解码器，（c）动作解码器。每个解码器通过一系列多层感知器(MLP)、注意机制和卷积神经网络(CNN)处理输入特征，以生成适当的输出表示。

（a）图像解码器：设计一个包含2个注意解码器层的简单结构。此结构输出图像块，然后根据其坐标将其组装成完整图像（静态图像Oh/simg或手腕图像O^h/gimg）。

（b）占用解码器：此结构的初始部分类似于图像解码器，生成特征U^h/occ。然后，对U^h/occ进行重塑、上采样并通过3D卷积处理以重建整个3D占用Oh/o = {oh/pos, oh/rgb}。灵活的模型架构允许视觉模块使用UVFormer从多视图特征生成占用图Oh/o = Oh/ov，而LLM也输出Oh/o = Oh/om，对应于T/occ。实验验证表明，Oh/ov和Oh/om为机器人操作提供类似的帮助。除非另有说明，Oh/o = O^h/ov。

（c）动作解码器：用一些MLP层来输出动作Oh/A，包括delta 6D姿态ah/pose ={∆posh/x, ∆posh/y, ∆posh/z, ∆roth/x, ∆roth/y, ∆roth/z}和1-DoF夹持器动作a^h/g。

RoboData：综合数据集

本文提出RoboData，它有效地整合多个数据集并统一输入和输出空间，从而解决数据异构性问题。此外，它打破针对单个特定任务进行训练的限制，为机器人操作提供统一的基准。

ChatGPT [50]和大型AI模型[2, 4, 59]的兴起，标志着人工智能的范式革命，所有这些都建立在丰富的“互联网规模”数据集的基础之上。然而，在具身智能领域，研究仍然集中于单一、特定的任务，例如抓取、路径规划和拾取和放置，旨在训练针对特定场景量身定制的智体。尽管Open X-Embodiment [51]和ARIO [62]等项目汇编了多个数据集，但它们仍然存在许多问题。例如，它们缺乏必要的3D信息（例如多视图、相机内和外参以及深度图），使得这些数据集仅适用于2D多模态训练。此外，数据集之间缺乏适当的空间对齐；具体而言，由于不同的世界坐标系，记录的机器人末端执行器的6D姿态（即位置和方向）表现出不一致。

为了应对这些挑战，整理知名的数据集，包括CALVIN [41]、MetaWorld [65]、LIBERO [34]、Robomimic [39]、RoboCasa [47]、ManiSkill2 [21]、RoboCAS [68]、RLBench [26]和Colosseum [52]，形成一个综合数据集，称之为RoboData。该数据集旨在为业界提供完整、公平的评估体系，包含70,000个episodes和700万个样本。它涵盖了各种各样的任务，包括放置、挑选、旋转和堆叠。

如表所示，每个数据集包含不同的模拟平台，并具有独特的世界坐标系、工作空间、视角和其他特征。因此，根据多种影响因素对模型的输入和输出空间进行对齐。

3D空间对齐

专注于世界坐标系、工作空间和动作空间的统一。不同的数据集采用自己的坐标系。例如，RLBench [26]和Colosseum [52]参考机器人的身体，将X轴设置为指向前方，Y轴指向左侧，Z轴指向上方；而ManiSkill2 [21]则将X轴向前、Y轴向右、Z轴向下。虽然两者都表现出相似的运动方向（从上到下移动），但由于坐标系的变化，动作的表示存在很大差异。例如在RL-Bench [26]中，a/pose = [0.0, 0.0, −0.1, 0.0, 0.0, 0.0]，而在ManiSkill2[21]中，a/pose =[0.0,0.0,0.1,0.0,0.0,0.0]。

将所有数据统一到同一个坐标系中对于进行跨平台联合训练至关重要。如果不能实现统一，训练过程中可能会出现冲突，对最终的学习结果产生负面影响。得益于RoboData数据集中3D信息的补充，旋转坐标系，将所有数据统一到同一个方向：X轴向右，Y轴向前，Z轴向上。

如图所示，左图模态隔离掩码(MIM)。KQ掩码结构调节不同模态（例如<文本>、<图像>、<动作>）之间的注意交互。深色方块表示K和Q之间允许的注意连接，而白色方块表示禁止的注意，以确保模态隔离。右图任务频率。此部分说明了数据集内任务的分布，详细说明了与每个任务相关的episodes数量。条形图表示各种任务的频率，包括“放置”、“挑选”和“转动”，突出显示数据集的多样性和重点领域。y轴表示episode数量，强调每个任务的相对频率。

动作表示对齐

不同的数据集采用不同的方法来获取机器人动作，这种多样性可能导致数据不一致。例如，CALVIN [41]使用欧拉角差法(EADM)来表示动作，而LIBERO [34]、Robomimic [39]、RoboCasa [47]使用复合旋转矩阵法(CRMM)，ManiSkill2 [21]采用姿态合成法(PCM)。为了解决这个问题，通过使用已在SRT [29]中得到验证的CRMM重新生成所有数据集中的动作表示，从而统一动作表示。这种选择不仅增强了数据一致性，而且为后续研究提供了更可靠的基础。