实时调整,灵活抓取!RT-Grasp:大语言模型赋能的机械臂抓取新架构
实时调整,灵活抓取!RT-Grasp:大语言模型赋能的机械臂抓取新架构
导读:
近年来,大型语言模型(LLMs)在多个领域展现出了卓越的推理能力,逐渐成为各行各业的重要工具。然而,在机器人领域,LLMs的应用目前主要局限于操作规划任务,尚未充分发挥其在具体机器人操作中的潜力,尤其是在精确的抓取任务中。
本文提出了一种创新的方法——推理调优(Reasoning Tuning),旨在解决这一问题。通过在训练过程中加入推理阶段,该方法让LLMs能够生成数值预测,尤其是在机器人抓取任务中的关键数值输出,如抓取姿势。得益于LLMs强大的推理能力和丰富的先验知识,机器人不仅能够生成适应不同场景的抓取方案,还能够通过对话进行灵活调整,从而实现更加智能化的抓取操作。
通过在多个抓取数据集和真实实验中的广泛验证,结果表明,具备多模态能力的LLMs能够精准预测抓取姿势,成功弥合了基于文本的规划与实际机器人控制之间的隔阂,显著提升了LLMs在机器人抓取领域的应用潜力。
1. 引入
近年来,人工智能的迅猛发展,尤其是大型语言模型(LLMs)的出现,极大推动了各个领域的进步。这些模型凭借丰富的知识库和强大的推理能力,正在彻底改变我们处理各种任务的方法,尤其是在语言处理方面。机器人学中,LLMs在促进机器人与人类之间的直接互动方面发挥了重要作用。例如,在机器人操作规划等任务中,许多研究已经利用LLMs将用户的自然语言指令转化为机器人可执行的多步骤规划。然而,尽管LLMs在机器人学中的应用潜力巨大,它们目前的应用主要集中在规划任务中,尤其是在需要精确数值输出的任务中,LLMs的应用却面临着瓶颈。
本文提出了一个创新的方法,探讨了如何将LLMs的推理能力应用于机器人任务中的数值预测,特别是在机器人抓取任务中的应用。传统的机器人抓取方法通常依赖于确定性预测,但这些方法由于缺乏推理能力,在实际应用中常常无法应对复杂环境的挑战。例如,许多基于CNN架构的传统方法在基准数据集上表现出色,但在实际操作中,常常出现理论上正确但执行时不切实际的情况。具体而言,某些理论上正确的抓取姿势,在实际操作时可能由于机器人的夹爪限制或其他因素,导致无法成功实施。因此,采用具有推理能力的非确定性方法显得尤为重要,它不仅能生成适用于不同环境的实际抓取姿势,还能根据用户的命令不断优化预测。
本文提出了推理调优(Reasoning Tuning)这一全新方法,在机器人抓取任务中引入了推理阶段,使得LLMs能够在生成数值预测之前,首先通过逻辑推理推断物体的类型、形状、位置等信息,进而得出精确的抓取姿势预测。这一推理阶段帮助LLMs更好地利用其广泛的先验知识,从而为机器人抓取任务提供更为精准的数值预测。通过对多模态LLMs进行推理调优,本文展示了该方法在提高抓取任务数值预测精度方面的有效性。
为验证推理调优方法的效果,本文还提出了专门用于机器人抓取任务的数据集——Reasoning Tuning VLM Grasp数据集,并对该数据集进行了多项实验证明。同时,我们探索了两种经济的训练策略——预训练和低秩适应(LoRA)微调,旨在提供一种资源高效的方式,将多模态LLMs的能力转移到机器人抓取等实际任务中。
总的来说,本文的研究重点是将多模态LLMs应用于数值预测任务,特别是机器人抓取任务。与传统的确定性方法不同,本文的方法不仅融入了先进的推理能力,还提出了一个新的预测优化范式。主要贡献包括:
- 提出推理调优(Reasoning Tuning)方法,利用预训练多模态LLMs的先验知识,促进其在需要数值预测的任务中的适应。
- 提出Reasoning Tuning VLM Grasp数据集,专门为机器人抓取任务的LLMs微调设计。
- 通过两种计算高效的训练策略进行实验证明,并通过真实硬件实验验证方法的有效性,结果表明该方法能够基于用户命令精确优化抓取预测。
2. 具体方法与实现
在本节中,本文介绍了“推理调优(Reasoning Tuning)”在机器人抓取任务中的应用(RT-Grasp)。该方法旨在弥合LLMs固有的文本输出形式与机器人任务中对精确数值预测的需求之间的鸿沟。其主要目标是通过利用LLMs所蕴含的丰富先验知识,促进其在数值预测中的应用,特别是在机器人抓取任务中,由图1所示,对比起传统的模型,本文提出的模型能够在进行抓取时提供多组抓取姿态供用户选择,用户可以根据物体的实际情况和任务所需要的抓取策略来选取不同的抓取姿态,从而提升机器人抓取任务的灵活性。本文实现的核心在于推理调优机制,接下来的部分,笔者主要详细介绍推理调优部分的实现方法,同时讲解训练所需的策略(即微调策略)。
2.1 推理调优
推理调优方法是本文的核心,该方法通过图像-文本对作为输入,并生成结构化的文本输出,来对多模态LLMs进行微调。这种结构化输出包括一个初始的推理阶段,随后是数值预测,如图2所示。值得注意的是,整个输出以文本形式呈现,模型被训练为顺序预测相应的token。通过在输出开始时引入推理阶段,本文鼓励模型基于与任务相关的逻辑推理生成精确的预测。
首先对于一个抓取任务,机器人会执行第一阶段,推理阶段:对于机器人的观测数据,可以将不同的观测数据作为不同的样本,每个数据样本包括一张RGB图像和一段文本指令,指导模型预测抓取姿势(见图3)。推理阶段中,通过机器人的观测以及大模型强大的泛化能力,能够获得物体的整体描述,包括形状和位置等,并估计了相应的抓取策略。例如,对于杯子,尽管它们的颜色、设计或材质可能不同,但一般的抓取策略是抓取杯子的把手或上缘。通过整合这样的推理阶段,模型能够对物体和相关的抓取策略形成广泛的理解,从而在后续步骤中生成更为准确的数值预测。
值的注意的是,在推理阶段的结构化文本中,本文根据物体类别生成了模板,因为同一类别物体的抓取策略通常相似。对于每个类别,作者创建了一系列不同的推理模板。在每个数据样本的结构化文本中,我们根据物体类别随机选择一个推理模板,然后附加上真实抓取姿势的文本,这个过程可能比较难理解,笔者认为可以将其简单的转述为:本文方法是以文本的形式获得机器人抓取时的各种抓取策略以及环境的观测信息,而根据机器人抓取的常见场景,能够将这些观测信息与抓取策略大致的归为几类(属于是机器学习中常见的无监督归类问题,LLM非常擅长),随后针对每个类型,提供对应的模版,这样可以促进机器人抓取任务的标准化和规范化,减少大模型自主决策导致的一些幻觉问题。
为了确保推理模板的质量,本文采用了多步骤的方法。首先,使用GPT-3.5生成针对每个类别的模板。随后,作者要求其优化这些文本,去除冗余或无关的信息。这些推理模板通常描述物体的形状,并提供一个通用的抓取策略。图4展示了一些推理模板的示例。
对于数据集中的输入文本指令,本文也使用GPT-3.5生成了一系列一致的指令模板,涉及机器人抓取任务,值得注意的是,生成该图像-文本数据集的方法可以适应于其他超越机器人抓取任务的数值预测任务。根据任务的不同,调整推理阶段中的策略,可以利用LLMs嵌入的适当先验知识来支持不同任务的执行。
2.2 训练策略
提到训练,首先我们对训练所需要用到的数据集有所了解,本文创建了一个新的数据集Reasoning Tuning VLM Grasp数据集,用于微调多模态LLMs。每个数据样本包括一张RGB图像和一段文本指令,指导模型预测抓取姿势。此外,该数据集中的结构化目标文本包含了针对输入图像中的物体的推理阶段,接着是实际的抓取姿势。
现有的机器人抓取数据集通常仅包含图像和数值的真实抓取姿势。与此不同,本文提出的Reasoning Tuning VLM数据集提供了专门为集成多模态LLMs到机器人抓取任务中而设计的图像-文本对。在该数据集中,图像来自基准的Cornell Grasp数据集,在本文的数据集中,每个图像都有一轮对话数据,其中表示输入指令,是相应的目标答案。本文执行了两种训练策略:预训练和LoRA微调,两种策略都使用自回归训练目标,具体来说,对于长度为的序列,生成目标答案的概率可以表示为:
其中为模型的可训练参数,表示当前的预测token;表示当前token之前的答案token。本文的训练部分基本上在该数据集上进行,具体可参考图5,其中展示了两种训练策略,1)预训练:只有投影层的参数可训练;2) LoRA微调:仅对投影参数进行微调层,通过灵活调整训练的策略,可以实现不同的训练效果,其中LoRA Fine-tuning(图5右侧)的训练pipeline能够直观的反应出这部分训练的复杂度和维度比左侧更高,因此在后续的实验中也能够体现出其可获得更好的结果。
3. 实验
本文的实验部分包含数值实验,可视化实验,以及大模型的调试和生成可视化实验,笔者将一次挑选重点结果为大家介绍,首先实在公开和私有数据集上的量化数值实验。
从图6可以看出,在量化数值实验中,本文方法能够取得不错的效果,在下面的折线图中,明显能够观察到基于LoRA Fine-tuning训练策略的模型能够取得更好的效果,这和训练的复杂度和维度相关,验证了作者在文章提出的设想。随后作者进行了抓取实验。
接下来是本文的重头戏,也就是阴影渲染可视化实验。
图7和8为抓取实验的结果,图7丰富的抓取物体能够反映出本文方法优秀的泛用性,图8中的柱状图能够看到本文方法对于不同的抓取物体均能够取得不错的效果,这是本文调优推理策略的卓越贡献。最终是大模型运行可视化实验,如图9所示,能够清晰的看到通过人机交互,大模型能够对于抓取策略进行实时的调整,根据User的指示灵活切换不同的抓取策略,为抓取过程带来更多的灵活性。
4. 总结
本研究强调了大型语言模型在传统文本处理之外的潜力。作者提出的方法利用了LLMs的丰富先验知识,特别是在机器人抓取任务中的数值预测能力。通过在基准数据集和实际场景中的广泛实验,作者验证了该方法的有效性。未来的工作将扩展这一方法的验证,计划将其应用于包含更广泛物体的抓取数据集。此外,作者认为探索多模态LLMs在其他机器人操作任务中的数值预测适应性,也是一个具有前景的研究方向。