多模态大模型架构演变:四种主要类型及其特点
创作时间:
作者:
@小白创作中心
多模态大模型架构演变:四种主要类型及其特点
引用
1
来源
1.
https://53ai.com/news/qianyanjishu/2024060302793.html
多模态大模型是当前AI领域的热门研究方向,它能够处理和理解多种类型的数据(如文本、图像、音频等)。本文将为您介绍多模态AI架构的分类法及其发展演变,帮助您更好地理解这一领域的最新进展。
一篇优秀的论文综述了多模态AI架构——包含了一个全面的分类法和对任意到任意模态模型发展的分析。
综合分类法
首次明确识别并分类四种广泛的多模态架构类型(A型、B型、C型、D型),有助于简化对模型架构的理解和选择。
深度融合 vs 早期融合
- 深度融合:类型A和类型B在模型的内部层融合多模态输入。
- 早期融合:类型C和类型D在输入阶段促进融合。
类型A:标准交叉注意力深度融合(SCDF)
使用标准的交叉注意力层在模型的内部层进行多模态输入的深度融合。这种类型可能在自注意力层之前或之后添加交叉注意力层。
类型B:自定义层深度融合(CLDF)
使用定制设计的层(例如自定义交叉注意力层或其他特定层)在模型的内部层进行多模态输入的深度融合。
类型C:非标记化早期融合(NTEF)
在模型的输入阶段进行多模态输入的早期融合,使用模态特定的编码器,但不涉及模型内部层的深度融合。这种类型可能使用线性层/MLP、Q-former、Perceiver resampler或自定义可学习层来连接编码器输出和LLM。
类型D:标记化早期融合(TEF)
与Type-C类似,在输入阶段进行早期融合,但使用标记化技术(如tokenizers)来处理模态。
任意到任意模态模型
任意到任意多模态模型的发展时间线。从单一模态模型(左侧)到任意到任意模态模型(右侧)的演变过程被描绘出来。图中注明了属于C型和D型的任意到任意多模态模型。底部的绿线展示了非基于变换器的模型(如SSM,状态空间模型)的另一条发展时间线。Mamba是一个语言模型。VL-mamba和Cobra是视觉-语言模型。
参考文献
[1] The Evolution of Multimodal Model Architectures. arXiv:2405.17927
热门推荐
电脑有网但是所有软件都连不上网怎么办
小基站“小”市场:从直采到代工之变
每个孩子都渴望父母的爱:学会倾听,多花时间了解孩子的内心世界
显微CT:解密骨骼微结构的科学利器
孩子脚上脱皮怎么办
春季蜕皮?3大常见原因及预防方法,轻松告别皮肤困扰
股骨颈骨折治疗新 “视” 界:解锁精准复位密码
买房贷款总额计算公式
揭秘艾滋病潜伏期:科学监测,守护生命之光
如何分析主力K线图?主力K线图的分析结果如何应用?
注意!你家里可能有螨虫
武警部队与海陆空火箭军等部队有何不同?
钢筋机械连接方式有哪几种
医生支招:头皮屑过多怎么办?
胸痛不一定是心脏问题?儿科医生详解儿童胸痛原因
饮酒后多久可以安全驾驶?酒精代谢对驾驶能力有何影响?
MPO型光纤活动连接器检测
药物临床前安全评估,该如何进行物种选择?
“戴个香草袋,不怕五虫害”。药师带你一起来制作中药香囊,请不要错过→
桡骨头半脱位怎么复位
新年到,选一副春联大赛佳作挂上吧,添福添寿添喜气!
汽车灯光系统全解析:各类灯光的功能、使用场景及故障维修
投资风险控制:如何通过多元化投资降低风险
亲子沟通的艺术:建立有效对话的策略与技巧
如何处理车险过了宽限期的情况?宽限期过后的影响有哪些?
30岁女性职场人如何突破职业瓶颈?这三大方向让你找到成长突破口
乌鲁木齐最出名的21家拌面馆名单来了,吃货必去打卡!
电动车充电器指示灯变绿后,应该立刻拔下电源插头?能保护电池吗
柳树什么时候栽最好?
如何在 WPS 中使用脚注与尾注