问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

ChatVLA:统一的多模态理解和机器人控制框架

创作时间:
作者:
@小白创作中心

ChatVLA:统一的多模态理解和机器人控制框架

引用
CSDN
1.
https://blog.csdn.net/yorkhunter/article/details/145830074

ChatVLA是一个创新的视觉-语言-动作(VLA)模型框架,旨在实现统一的多模态理解和机器人控制。通过分阶段对齐训练和混合专家架构,ChatVLA成功克服了传统VLA模型在多模态理解和机器人控制之间存在的任务干扰问题,同时保持了优秀的性能表现。

背景与挑战

近年来,视觉-语言-动作(VLA)模型在机器人控制领域取得了显著进展。然而,这些模型在多模态理解方面的能力相对有限。现有模型在机器人控制和多模态理解之间存在明显的二元性:专注于机器人控制的模型往往缺乏多模态理解能力,而专注于多模态理解的模型则缺乏物理交互能力。

ChatVLA框架设计

为了解决这一挑战,研究团队提出了ChatVLA框架,该框架通过分阶段对齐训练和混合专家架构来实现多模态理解和机器人控制的统一。

分阶段对齐训练

分阶段对齐训练是一种受课程学习启发的两阶段策略。在第一阶段,模型专注于掌握具身控制能力。在第二阶段,模型逐步集成多模态数据,以"重新激活"冻结的对齐链接,从而保持多模态理解能力。

混合专家架构

为了减少任务干扰,ChatVLA在多层感知器(MLP)层引入了混合专家(MoE)架构。这种架构通过设计两个独立的路由器来处理多模态理解和对话任务以及机器人控制任务,从而实现任务间的表示分离。

实验结果

研究团队在多个基准测试和实际机器人任务中评估了ChatVLA的表现。实验结果表明,ChatVLA在视觉问答数据集上显著超越了最先进的VLA方法,在MMMU上的性能提高了六倍,在MM-Star上的得分为47.2%,并且在25个现实世界的机器人操作任务上表现出色。

结论

ChatVLA框架通过创新的训练策略和架构设计,成功实现了多模态理解和机器人控制的统一。这一突破不仅展示了统一框架在实现强大多模态理解和有效机器人控制方面的潜力,也为未来的研究提供了新的方向。

技术细节

训练数据配置分析

研究团队分析了三种不同的训练范式:

  1. 仅使用机器人数据进行训练
  2. 使用包含推理的机器人数据
  3. 使用视觉文本数据和机器人数据进行联合训练

实验结果表明,仅使用机器人数据进行训练会导致模型失去对话和理解能力,而使用视觉文本数据和机器人数据进行联合训练则会导致机器人控制性能下降。这证实了虚假遗忘和任务干扰的存在。

方法:ChatVLA

ChatVLA框架通过以下方式解决上述挑战:

  1. 分阶段对齐训练:首先在机器人数据上训练模型,然后与视觉文本数据一起训练,以保持两个领域的性能。
  2. 专家混合:设计了一个双路由器架构,一个用于处理多模态理解和对话任务,另一个用于学习机器人控制表征。

实验中使用Qwen2-VL-2B作为VLM主干,动作头集遵循DiVLA。在第一阶段训练中,只激活控制专家。在第二阶段,视觉文本数据与机器人数据以1:3的比例进行联合训练。

实验结果展示

ChatVLA在多个基准测试和实际机器人任务中表现出色:

  • 在视觉问答数据集上显著超越了最先进的VLA方法
  • 在MMMU上的性能提高了六倍
  • 在MM-Star上的得分为47.2%
  • 在25个现实世界的机器人操作任务上表现出色

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号