资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

多模态模型架构演变与相关知识总结

创作时间:

作者:

@小白创作中心

多模态模型架构演变与相关知识总结

引用

CSDN

https://blog.csdn.net/weixin_44729653/article/details/146330369

多模态学习知识点总结

1. 概述
1. 多模态学习
1. 多模态表示与融合
1.1 模态表示
1.2 多模态融合（Multimodal Fusion）
1. 跨模态对齐机制与模型架构设计
2.1 四种核心架构
2.2 架构对比

0. 概述

多模态学习（Multimodal Learning）是融合文本、图像、音频、视频等多种模态数据的机器学习方法，通过融合多种数据模态来训练模型，从而提高模型的感知与理解能力，实现跨模态的信息交互与融合，旨在提升模型对复杂现实场景的理解与生成能力。文章主要从模态表示、多模态融合、跨模态对齐和多模态模型架构四个方面，系统地总结了多模态学习的相关知识。

1. 多模态学习

多模态机器学习是从多种模态的数据中学习并且提升自身的算法，它不是某一个具体的算法，它是一类算法的总称。

从语义感知的角度切入，多模态数据涉及不同的感知通道如视觉、听觉、触觉、嗅觉所接收到的信息；在数据层面理解，多模态数据则可被看作多种数据类型的组合，如图片、数值、文本、符号、音频、时间序列，或者集合、树、图等不同数据结构所组成的复合数据形式，乃至来自不同数据库、不同知识库的各种信息资源的组合。对多源异构数据的挖掘分析可被理解为多模态学习，具体如下图所示。

1. 多模态表示与融合

首先应当说明的是，多模态表示学习和多模态融合是两个易于混淆的概念。二者虽然有共同点，有时在输出上很相似，都能够获得包含多模态信息的中间特征张量，但事实上遵循着不同的解决问题的方式。

1.1 模态表示

模态表示的关键点是提取和学习各模态的信息，并在不同模态之间建立有效的表示空间，方法有：

单模态表示：分别对各个模态进行特征提取，例如：

文本 → 通过 BERT 生成文本嵌入。
图像 → 通过 ViT 或 CNN 生成视觉特征。

共享表示空间（多模态联合表示）：学习一个统一的多模态表示空间，例如：

CLIP 通过文本和图像的对比学习，使二者映射到相同的向量空间。
BLIP 通过 Transformer 结合图像和文本嵌入，学习跨模态表示。

1.2 多模态融合（Multimodal Fusion）

多模态融合指的是如何将多个模态的信息进行交互和组合，使其相互补充，以提高任务性能。融合的目标是让不同模态的信息互相协作，而不是仅仅对每个模态进行独立的表示学习。关键点是让不同模态的信息在推理或决策过程中互相增强，提高整体表现。

从融合时期判断主要分为早期融合（Early Fusion）、中期融合（Intermediate Fusion）和晚期融合（Late Fusion），从数据处理的层次角度将多模态融合分为数据级融合、特征级融合和目标级融合，两种分类方式一一对应如下图所示：

早期融合（Early Fusion）：在输入层进行融合，即将不同模态的数据直接拼接或映射到同一空间后送入模型。例如，将图像和文本嵌入拼接后输入 Transformer 进行联合编码。
中期融合（Intermediate Fusion）：在模型的中间层进行融合，通常采用注意力机制或跨模态交互 Transformer 进行信息交互。例如 BLIP-2 的 Q-Former，在 Transformer 中间层实现视觉-语言交互。
晚期融合（Late Fusion）：在任务决策层进行融合，即不同模态分别计算得分，最后加权求和。例如在多模态情感分析中，分别从文本、语音、视觉中提取情感分数，再结合它们的加权平均结果进行最终分类。

总之，多模态表示学习关注于所学习到的多模态表示是否具有良好性质，并且能够很好地应用于下游任务；而多模态融合关注于如何将多模态数据以一定的架构、方法融合，共同贡献于解决目标任务，多模态融合强调在解决任务的算法框架中设计多种信息的使用，多种模态数据之间可能存在主次关系。

2. 跨模态对齐机制与模型架构设计

近年来，随着深度学习技术的飞速发展，多模态学习逐渐成为人工智能领域的研究热点。与单一模态不同，多模态学习旨在利用不同模态数据（如文本、图像、音频等）之间的互补信息，构建更加全面、准确的智能模型。多模态融合是实现多模态学习的关键，其目标是在特征或决策层面实现不同模态表示的有效整合。然而，设计高效的多模态融合架构仍面临诸多挑战，如模态间的异构性、语义鸿沟、数据预处理与对齐等。

针对这些挑战，学术界提出了多种多模态模型架构，并在图像描述、视频问答、语音识别等任务上取得了瞩目成果。但不同架构在融合方式、融合阶段等方面存在显著差异，亟需一个系统的比较分析框架。在此背景下，普渡大学的研究者发表了题为《The Evolution of Multimodal Model Architectures》的论文，系统分析多模态模型架构演变。该论文提出了四种核心架构类型，并详细比较了它们的特点、优缺点及应用场景。以下是论文内容的总结：

2.1 四种核心架构

多模态模型的架构设计需要考虑两个关键因素：融合方式和融合阶段。融合方式决定了不同模态信息的交互方式，主要包括连接（Concatenation）、元素级乘法（Element-wise multiplication）、注意力机制（Attention）等。融合阶段则指多模态交互发生的位置，可以是模型的输入层、中间层或输出层。论文基于这两个维度，提出了一种新颖的多模态架构分类法，将现有模型归纳为四大类：Type A、B、C、D。

Type-A（标准交叉注意力深层融合）
Type A 和 B 的核心思想是在模型的内部层实现多模态信息的交互融合。以 Type A 为例，其采用了标准的 cross-attention 机制，通过将一种模态的特征作为 Query，另一种模态的特征作为 Key 和 Value，计算两种模态之间的注意力权重，实现特征对齐与融合。
Type-B（自定义层深层融合）

与 Type A 不同，Type B 架构引入了自定义的融合层，如多模态 Transformer、多模态注意力等，通过显式地建模模态交互来实现更深层次的融合。以多模态 Transformer 为例，其在标准 Transformer 的基础上，引入了模态嵌入（Modal Embedding）和模态注意力（Modal Attention）两个模块。模态嵌入将不同模态的输入映射到同一语义空间，模态注意力则通过引入模态间的交互项，显式地建模不同模态特征的交互。这种自定义融合层可以更好地捕捉模态间的高阶关联，实现更强大的表示学习能力。

Type-C（非 token 化早期融合）
Type C 和 D 的共同点是在模型的输入阶段实现多模态信息的融合，区别在于融合的粒度和方式。Type C 架构采用模态特定的编码器，如 CNN、RNN 等，将每种模态数据编码为统一的向量表示后再输入模型。以图文匹配任务为例，Type C 架构首先使用 CNN 对图像进行编码，提取其高层语义特征；然后使用 RNN 对文本进行编码，提取其上下文信息。最后，将图像特征和文本特征拼接成一个统一的多模态向量，作为下游任务的输入。这种方式的优点是实现简单，不同模态的特征提取可以并行进行，易于扩展新的模态。但其局限性在于忽略了模态间的细粒度交互，特征表示的语义空间可能不一致，影响最终的任务性能。
Type-D（token 化早期融合）
Type D 架构的独特之处在于引入了分词器，将图像、音频等连续信号转换为离散的 token 序列，实现了与文本模态的统一表示。具体而言，Type D 架构先使用预训练的分词器（如 BPE、WordPiece 等）将文本切分为子词单元；然后使用卷积或 Transformer 等模型提取图像特征，并将其量化为离散的视觉 token。通过这种方式，不同模态数据被统一表示为 token 序列，可以直接输入到基于自注意力的 Transformer 等模型中，实现端到端的多模态学习。Type D 架构的优势在于简化了模型的输入接口，减少了模态间的信息损失，为构建 any-to-any 多模态模型奠定了基础。但其挑战在于如何设计高效的分词算法和量化策略，以平衡计算效率和表示精度。

2.2 架构对比

通过以上分类与对比，多模态学习架构的选择需根据任务需求（如生成能力、资源限制）权衡架构复杂度与性能。Type-C 和 Type-D 因其灵活性与扩展性，成为当前研究与应用的主流方向。

深层融合（Type-A/B）：在模型内部层融合模态，需深度调整模型结构。
深层融合架构通过在模型内部层（如 Transformer 的交叉注意力层）整合多模态信息，实现精细的模态交互。Type-A 采用标准交叉注意力（如 Flamingo、OpenFlamingo），需大规模数据和计算资源，但能端到端训练并灵活处理复杂任务。Type-B 引入自定义层（如 LLaMA-Adapter 的可学习门控），在提升效率的同时保持灵活性，适合多模态指令调优。这类架构的优势在于对模态流的精细控制，但扩展性较差，添加新模态需深度调整模型结构，多用于早期多模态模型和复杂推理场景。
早期融合（Type-C/D）：在输入阶段融合模态，架构更模块化。
早期融合架构在输入阶段通过轻量级模块（如线性层、Q-former 或 Tokenizer）整合多模态数据，具有模块化设计和低资源需求的特点。Type-C（如 LLaVA、BLIP-2）无需离散 Token，通过接口连接模态编码器与 LLM，易于扩展但非文本生成能力有限。Type-D（如 Unified-IO、LaVIT）将多模态输入转换为离散 Token，支持自回归训练，能高效实现任意模态生成（如图文互转），但需训练专用 Tokenizer 且计算成本较高。这类架构因灵活性和扩展性成为当前主流，尤其适用于快速构建多模态模型和任意模态生成任务。