问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

多模态大模型架构演变:四种主要类型及其特点

创作时间:
作者:
@小白创作中心

多模态大模型架构演变:四种主要类型及其特点

引用
1
来源
1.
https://53ai.com/news/qianyanjishu/2024060302793.html

多模态大模型是当前AI领域的热门研究方向,它能够处理和理解多种类型的数据(如文本、图像、音频等)。本文将为您介绍多模态AI架构的分类法及其发展演变,帮助您更好地理解这一领域的最新进展。

一篇优秀的论文综述了多模态AI架构——包含了一个全面的分类法和对任意到任意模态模型发展的分析。

综合分类法

首次明确识别并分类四种广泛的多模态架构类型(A型、B型、C型、D型),有助于简化对模型架构的理解和选择。

深度融合 vs 早期融合

  • 深度融合:类型A和类型B在模型的内部层融合多模态输入。
  • 早期融合:类型C和类型D在输入阶段促进融合。

类型A:标准交叉注意力深度融合(SCDF)

使用标准的交叉注意力层在模型的内部层进行多模态输入的深度融合。这种类型可能在自注意力层之前或之后添加交叉注意力层。

类型B:自定义层深度融合(CLDF)

使用定制设计的层(例如自定义交叉注意力层或其他特定层)在模型的内部层进行多模态输入的深度融合。

类型C:非标记化早期融合(NTEF)

在模型的输入阶段进行多模态输入的早期融合,使用模态特定的编码器,但不涉及模型内部层的深度融合。这种类型可能使用线性层/MLP、Q-former、Perceiver resampler或自定义可学习层来连接编码器输出和LLM。

类型D:标记化早期融合(TEF)

与Type-C类似,在输入阶段进行早期融合,但使用标记化技术(如tokenizers)来处理模态。

任意到任意模态模型

任意到任意多模态模型的发展时间线。从单一模态模型(左侧)到任意到任意模态模型(右侧)的演变过程被描绘出来。图中注明了属于C型和D型的任意到任意多模态模型。底部的绿线展示了非基于变换器的模型(如SSM,状态空间模型)的另一条发展时间线。Mamba是一个语言模型。VL-mamba和Cobra是视觉-语言模型。

参考文献

[1] The Evolution of Multimodal Model Architectures. arXiv:2405.17927

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号