问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

多模态模型架构演变与相关知识总结

创作时间:
作者:
@小白创作中心

多模态模型架构演变与相关知识总结

引用
CSDN
1.
https://blog.csdn.net/weixin_44729653/article/details/146330369

多模态学习知识点总结

    1. 概述
    1. 多模态学习
    1. 多模态表示与融合
  • 1.1 模态表示

  • 1.2 多模态融合(Multimodal Fusion)

    1. 跨模态对齐机制与模型架构设计
  • 2.1 四种核心架构

  • 2.2 架构对比

0. 概述

多模态学习(Multimodal Learning)是融合文本、图像、音频、视频等多种模态数据的机器学习方法,通过融合多种数据模态来训练模型,从而提高模型的感知与理解能力,实现跨模态的信息交互与融合,旨在提升模型对复杂现实场景的理解与生成能力。文章主要从模态表示、多模态融合、跨模态对齐和多模态模型架构四个方面,系统地总结了多模态学习的相关知识。

1. 多模态学习

多模态机器学习是从多种模态的数据中学习并且提升自身的算法,它不是某一个具体的算法,它是一类算法的总称。

从语义感知的角度切入,多模态数据涉及不同的感知通道如视觉、听觉、触觉、嗅觉所接收到的信息;在数据层面理解,多模态数据则可被看作多种数据类型的组合,如图片、数值、文本、符号、音频、时间序列,或者集合、树、图等不同数据结构所组成的复合数据形式,乃至来自不同数据库、不同知识库的各种信息资源的组合。对多源异构数据的挖掘分析可被理解为多模态学习,具体如下图所示。

1. 多模态表示与融合

首先应当说明的是,多模态表示学习和多模态融合是两个易于混淆的概念。二者虽然有共同点,有时在输出上很相似,都能够获得包含多模态信息的中间特征张量,但事实上遵循着不同的解决问题的方式。

1.1 模态表示

模态表示的关键点是提取和学习各模态的信息,并在不同模态之间建立有效的表示空间,方法有:

  1. 单模态表示:分别对各个模态进行特征提取,例如:
  • 文本 → 通过 BERT 生成文本嵌入。
  • 图像 → 通过 ViT 或 CNN 生成视觉特征。
  1. 共享表示空间(多模态联合表示):学习一个统一的多模态表示空间,例如:
  • CLIP 通过文本和图像的对比学习,使二者映射到相同的向量空间。
  • BLIP 通过 Transformer 结合图像和文本嵌入,学习跨模态表示。

1.2 多模态融合(Multimodal Fusion)

多模态融合指的是如何将多个模态的信息进行交互和组合,使其相互补充,以提高任务性能。融合的目标是让不同模态的信息互相协作,而不是仅仅对每个模态进行独立的表示学习。关键点是让不同模态的信息在推理或决策过程中互相增强,提高整体表现。

从融合时期判断主要分为早期融合(Early Fusion)、中期融合(Intermediate Fusion)和晚期融合(Late Fusion),从数据处理的层次角度将多模态融合分为数据级融合、特征级融合和目标级融合,两种分类方式一一对应如下图所示:

  • 早期融合(Early Fusion): 在输入层进行融合,即将不同模态的数据直接拼接或映射到同一空间后送入模型。例如,将图像和文本嵌入拼接后输入 Transformer 进行联合编码。
  • 中期融合(Intermediate Fusion): 在模型的中间层进行融合,通常采用注意力机制或跨模态交互 Transformer 进行信息交互。例如 BLIP-2 的 Q-Former,在 Transformer 中间层实现视觉-语言交互。
  • 晚期融合(Late Fusion): 在任务决策层进行融合,即不同模态分别计算得分,最后加权求和。例如在多模态情感分析中,分别从文本、语音、视觉中提取情感分数,再结合它们的加权平均结果进行最终分类。

总之,多模态表示学习关注于所学习到的多模态表示是否具有良好性质,并且能够很好地应用于下游任务;而多模态融合关注于如何将多模态数据以一定的架构、方法融合,共同贡献于解决目标任务,多模态融合强调在解决任务的算法框架中设计多种信息的使用,多种模态数据之间可能存在主次关系。

2. 跨模态对齐机制与模型架构设计

近年来,随着深度学习技术的飞速发展,多模态学习逐渐成为人工智能领域的研究热点。与单一模态不同,多模态学习旨在利用不同模态数据(如文本、图像、音频等)之间的互补信息,构建更加全面、准确的智能模型。多模态融合是实现多模态学习的关键,其目标是在特征或决策层面实现不同模态表示的有效整合。然而,设计高效的多模态融合架构仍面临诸多挑战,如模态间的异构性、语义鸿沟、数据预处理与对齐等。

针对这些挑战,学术界提出了多种多模态模型架构,并在图像描述、视频问答、语音识别等任务上取得了瞩目成果。但不同架构在融合方式、融合阶段等方面存在显著差异,亟需一个系统的比较分析框架。在此背景下,普渡大学的研究者发表了题为《The Evolution of Multimodal Model Architectures》的论文,系统分析多模态模型架构演变。该论文提出了四种核心架构类型,并详细比较了它们的特点、优缺点及应用场景。以下是论文内容的总结:

2.1 四种核心架构

多模态模型的架构设计需要考虑两个关键因素:融合方式和融合阶段。融合方式决定了不同模态信息的交互方式,主要包括连接(Concatenation)、元素级乘法(Element-wise multiplication)、注意力机制(Attention)等。融合阶段则指多模态交互发生的位置,可以是模型的输入层、中间层或输出层。论文基于这两个维度,提出了一种新颖的多模态架构分类法,将现有模型归纳为四大类:Type A、B、C、D。

  • Type-A(标准交叉注意力深层融合)
    Type A 和 B 的核心思想是在模型的内部层实现多模态信息的交互融合。以 Type A 为例,其采用了标准的 cross-attention 机制,通过将一种模态的特征作为 Query,另一种模态的特征作为 Key 和 Value,计算两种模态之间的注意力权重,实现特征对齐与融合。

  • Type-B(自定义层深层融合)

与 Type A 不同,Type B 架构引入了自定义的融合层,如多模态 Transformer、多模态注意力等,通过显式地建模模态交互来实现更深层次的融合。以多模态 Transformer 为例,其在标准 Transformer 的基础上,引入了模态嵌入(Modal Embedding)和模态注意力(Modal Attention)两个模块。模态嵌入将不同模态的输入映射到同一语义空间,模态注意力则通过引入模态间的交互项,显式地建模不同模态特征的交互。这种自定义融合层可以更好地捕捉模态间的高阶关联,实现更强大的表示学习能力。

  • Type-C(非 token 化早期融合)
    Type C 和 D 的共同点是在模型的输入阶段实现多模态信息的融合,区别在于融合的粒度和方式。Type C 架构采用模态特定的编码器,如 CNN、RNN 等,将每种模态数据编码为统一的向量表示后再输入模型。以图文匹配任务为例,Type C 架构首先使用 CNN 对图像进行编码,提取其高层语义特征;然后使用 RNN 对文本进行编码,提取其上下文信息。最后,将图像特征和文本特征拼接成一个统一的多模态向量,作为下游任务的输入。这种方式的优点是实现简单,不同模态的特征提取可以并行进行,易于扩展新的模态。但其局限性在于忽略了模态间的细粒度交互,特征表示的语义空间可能不一致,影响最终的任务性能。

  • Type-D(token 化早期融合)
    Type D 架构的独特之处在于引入了分词器,将图像、音频等连续信号转换为离散的 token 序列,实现了与文本模态的统一表示。具体而言,Type D 架构先使用预训练的分词器(如 BPE、WordPiece 等)将文本切分为子词单元;然后使用卷积或 Transformer 等模型提取图像特征,并将其量化为离散的视觉 token。通过这种方式,不同模态数据被统一表示为 token 序列,可以直接输入到基于自注意力的 Transformer 等模型中,实现端到端的多模态学习。Type D 架构的优势在于简化了模型的输入接口,减少了模态间的信息损失,为构建 any-to-any 多模态模型奠定了基础。但其挑战在于如何设计高效的分词算法和量化策略,以平衡计算效率和表示精度。

2.2 架构对比

通过以上分类与对比,多模态学习架构的选择需根据任务需求(如生成能力、资源限制)权衡架构复杂度与性能。Type-C 和 Type-D 因其灵活性与扩展性,成为当前研究与应用的主流方向。

  • 深层融合(Type-A/B):在模型内部层融合模态,需深度调整模型结构。
    深层融合架构通过在模型内部层(如 Transformer 的交叉注意力层)整合多模态信息,实现精细的模态交互。Type-A 采用标准交叉注意力(如 Flamingo、OpenFlamingo),需大规模数据和计算资源,但能端到端训练并灵活处理复杂任务。Type-B 引入自定义层(如 LLaMA-Adapter 的可学习门控),在提升效率的同时保持灵活性,适合多模态指令调优。这类架构的优势在于对模态流的精细控制,但扩展性较差,添加新模态需深度调整模型结构,多用于早期多模态模型和复杂推理场景。

  • 早期融合(Type-C/D):在输入阶段融合模态,架构更模块化。
    早期融合架构在输入阶段通过轻量级模块(如线性层、Q-former 或 Tokenizer)整合多模态数据,具有模块化设计和低资源需求的特点。Type-C(如 LLaVA、BLIP-2)无需离散 Token,通过接口连接模态编码器与 LLM,易于扩展但非文本生成能力有限。Type-D(如 Unified-IO、LaVIT)将多模态输入转换为离散 Token,支持自回归训练,能高效实现任意模态生成(如图文互转),但需训练专用 Tokenizer 且计算成本较高。这类架构因灵活性和扩展性成为当前主流,尤其适用于快速构建多模态模型和任意模态生成任务。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号