问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Uni-MoE:通过混合专家扩展统一多模态LLM

创作时间:
作者:
@小白创作中心

Uni-MoE:通过混合专家扩展统一多模态LLM

引用
CSDN
1.
https://blog.csdn.net/yorkhunter/article/details/139441598

多模态大语言模型(MLLM)的最新进展强调了可扩展模型和数据对提升性能的重要性,但这通常会产生大量的计算成本。尽管混合专家(MoE)架构已被用于有效扩展大语言和图像-文本模型,但这些努力通常涉及较少的专家和有限的模态。为了解决这个问题,来自哈尔滨工业大学、香港科技大学和美团的研究团队提出了一种具有MoE架构的统一MLLM,称为Uni-MoE,它可以处理多种模态。

Uni-MoE模型架构

Uni-MoE模型具有特定于模态的编码器和连接器,实现统一的多模态表示。研究团队还在LLM中实现稀疏MoE架构,通过模态级数据并行和专家级模型并行实现高效的训练和推理。为了增强多专家协作和泛化能力,研究团队提出一种渐进式训练策略:

  1. 使用具有不同跨模态数据的各种连接器进行跨模态对齐
  2. 使用跨模态指令数据训练特定模态专家,激活专家的偏好
  3. 利用LoRA在混合多模态指令数据上调整Uni-MoE框架

实验结果表明,Uni-MoE的主要优势在于显著减少处理混合多模态数据集时的性能偏差,同时改善了多专家协作和泛化能力。

技术细节

Uni-MoE可以利用稀疏MoE熟练地管理和解释多种模态,如图所示,首先使用模态特定编码器来获得不同模态的编码,并通过设计的各种连接器将它们映射到LLM的语言表示空间中。它们包含一个可训练的Transformer模型,随后的线性投影层分别用于提取和投影冻结编码器的输出表示。然后,在密集LLM的内部块中引入一个稀疏MoE层。因此,每个基于MoE的块都具有一个适用于所有模态的共享自注意层、基于前馈网络(FFN)的多样化专家以及用于分配token级专业知识的稀疏路由器。通过这种方式,Uni-MoE可以理解多种模态,例如音频、语音、图像、视频和文本,在推理中只激活部分参数。

此外,为了增强Uni-MoE的多专家协作和泛化,研究团队开发一种三阶段渐进式训练方法:

  1. 分别使用大量图像/语音/音频到语言对来训练相应的连接器,实现LLM语言空间中的统一模态表示
  2. 用跨模态数据集分别训练特定模态的专家,以提高每位专家在各自领域的熟练程度
  3. 将这些训练有素的专家集成到LLM的MoE层,并使用混合多模态指令数据训练整个Uni-MoE框架

为了进一步降低训练成本,研究团队采用LoRA技术来微调这些预先调整的专家和自注意层。通过上述三阶段训练方法,获得一个高效、稳定的Uni-MoE,可以熟练地管理和解释多种模态。

实验结果

实验扩展基于LLaMA-7B架构的Uni-MoE模型为基础。下表是Uni-MoE的详细架构以及与视觉-语言MoE-LLaVA的比较。部分内容来自MoE-LLaVA模型。“Width”表示隐状态维度。“FFN”表示前馈网络中间层维度。“FFN Factor”表示FFN中的线性层数。“Activated”或“Total Param”是指激活的参数量或总参数量。“7B×4-Top2”表示具有7B参数的密集基础模型,旨在包含总共4个专家,其中两个被激活。“†”表示所有层都配备MoE层。

Uni-MoE的设计和优化下表中列出的专门训练任务为指导。这些任务有助于完善MLP层的功能,从而利用它们的专业知识来提高模型性能。有8项单模态专家任务,阐明不同训练方法的不同影响。综合训练方法使用MoE框架执行6项不同的任务,涵盖多种模态,包括视频、音频、语音、图像和文本。这项多方面的训练任务评估Uni-MoE在不同MoE配置下的性能,从而确保一种适用于各种数据类型和应用程序的稳健且通用的建模方法。

训练数据集

为了使模型具备语音识别能力,在训练的跨模态对齐阶段加入Common Voice数据集。该数据集包含简短的语音片段,每个片段的持续时间不到30秒,累计总数超过170万个实例。随后,开发一个源自LLaVA-Instruct-150K的三模态数据集,利用Microsoft Azure的复杂TTS技术将用户查询转换为听觉格式。此外,原始LLaVA-Instruct-150K数据集用于各种训练任务,方便进行比较分析。为了提高模型理解扩展语音序列的能力,将LibriSpeech数据集中的音频文件与30秒的简短语音集成并串联成更长的声音文件,每个文件最长可达两分钟。此外,将RACE数据集(一个源自中国英语考试的综合阅读理解集合)从其原始文本格式转换为长音频文件。随后将这些转换后的音频文件输入到模型中,使其能够解释冗长的语音输入并准确确定对问题的适当回答。对于音频字幕任务,该模型使用相同的数据集进行跨模态对齐和单模态专家训练过程。WavCaps数据集构成ChatGPT辅助的弱标注音频字幕集,分为四个子集(AudioSet SL子集、SoundBible、FreeSound和BBC Sound Effects),部分用于优化框架。此外,AudioCaps数据集是一个综合语料库,包含大约46,000对音频片段及其相应的人工生成的文本描述,也在训练过程中有选择地使用。Clotho和ClothoAQA数据集用于增强模型在音频相关问答任务中的能力。此外,MELD(一个用于音频情绪检测的数据集)用于增强框架内音频相关任务的多样性。在视频相关任务领域,这是增强模型视觉理解的关键组成部分,VideoChatGPT的Video-Instruct-Dataset(包含100,000个视频-文本指令对)被用作训练语料库,以提高模型在涉及视频内容的场景中的表现。

评估数据集

该模型在各种基准上进行评估,反映了它们旨在执行的专门任务多样性。为了评估模型在短语音识别和图像理解方面的熟练程度,用A-OKVQA、OKVQA和VQAv2基准的修改版本,利用语音合成技术TTS将问题转换为人类语音。为了设计长语音任务,利用图像文本推理数据集MMBench并利用TTS将上下文提示转换为长音频(称为MMBench-Audio),以及RACE评估集的语音版(称为RACE-Audio),严格评估模型。更准确地说,模型的熟练度还通过它们在中国高考英语听力部分的表现来评估,以检查它们在现实世界中的实际语音识别能力。该紧凑数据集包含150个与长音频片段相关的问题(平均长度为109秒),以及50个与短音频片段相关的问题(平均长度为14秒)。这些材料的格式与RACE-Audio评估数据集的格式一致。此外,还利用Clotho V1/2和ClothoAQA的测试集来评估环境音频理解能力。在视频相关任务的背景下,使用ActivityNet-QA和MSVD-QA的基准来衡量Uni-MoE的性能,这些基准有助于评估视频理解和交互能力。

开源代码

Uni-MoE的代码已开源,可以在GitHub上找到:HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号