多模态大模型架构演变:四种主要类型及其特点
创作时间:
作者:
@小白创作中心
多模态大模型架构演变:四种主要类型及其特点
引用
1
来源
1.
https://53ai.com/news/qianyanjishu/2024060302793.html
多模态大模型是当前AI领域的热门研究方向,它能够处理和理解多种类型的数据(如文本、图像、音频等)。本文将为您介绍多模态AI架构的分类法及其发展演变,帮助您更好地理解这一领域的最新进展。
一篇优秀的论文综述了多模态AI架构——包含了一个全面的分类法和对任意到任意模态模型发展的分析。
综合分类法
首次明确识别并分类四种广泛的多模态架构类型(A型、B型、C型、D型),有助于简化对模型架构的理解和选择。
深度融合 vs 早期融合
- 深度融合:类型A和类型B在模型的内部层融合多模态输入。
- 早期融合:类型C和类型D在输入阶段促进融合。
类型A:标准交叉注意力深度融合(SCDF)
使用标准的交叉注意力层在模型的内部层进行多模态输入的深度融合。这种类型可能在自注意力层之前或之后添加交叉注意力层。
类型B:自定义层深度融合(CLDF)
使用定制设计的层(例如自定义交叉注意力层或其他特定层)在模型的内部层进行多模态输入的深度融合。
类型C:非标记化早期融合(NTEF)
在模型的输入阶段进行多模态输入的早期融合,使用模态特定的编码器,但不涉及模型内部层的深度融合。这种类型可能使用线性层/MLP、Q-former、Perceiver resampler或自定义可学习层来连接编码器输出和LLM。
类型D:标记化早期融合(TEF)
与Type-C类似,在输入阶段进行早期融合,但使用标记化技术(如tokenizers)来处理模态。
任意到任意模态模型
任意到任意多模态模型的发展时间线。从单一模态模型(左侧)到任意到任意模态模型(右侧)的演变过程被描绘出来。图中注明了属于C型和D型的任意到任意多模态模型。底部的绿线展示了非基于变换器的模型(如SSM,状态空间模型)的另一条发展时间线。Mamba是一个语言模型。VL-mamba和Cobra是视觉-语言模型。
参考文献
[1] The Evolution of Multimodal Model Architectures. arXiv:2405.17927
热门推荐
拔河技巧全攻略:站位、握绳、身体姿势详解
马扎克M32参数设定与优化:提升数控程序效率的关键
穿高领秒变“眩晕人”?这种隐藏疾病专盯“颈部高敏感人群”!
中医如何治疗昏迷患者
从扬州到南京:高铁、动车、汽车等多种出行方式全攻略
带你了解白酒的重要工艺
多潘立酮安全性存疑,专家建议谨慎使用
多潘立酮:胃病患者的福音?
多潘立酮:你的肠胃守护神?
游山西,为何不推荐去五台山?
韩红和梁翘柏开玩央视音综高端局,桌子当鼓原来也可以这么戳心
协和医生说 | 肿瘤患者春节如何进补?请收好“四要四不要”营养锦囊
让旅途不再无聊:适合亲子旅行的车载小游戏推荐
春节自驾游必备:亲子益智小游戏大集合!
感冒发烧时的饮食指南:这些食物要多吃,这些食物要少吃
新疆喀纳斯冬季旅游攻略:最美雪景地打卡指南
中央气象台发布暴雪预警:豫鲁鄂等地将现强降雪,春运交通受影响
东北亚雪公路:中国最美赏雪公路自驾全攻略
多赚利息!国债逆回购操作攻略
如何解决车里面太闷的问题?解决后如何保持车内空气清新?
川渝携手打造文化旅游新名片 2024巴蜀非遗品牌大会在四川广安举行
红色南泥湾 陕北好江南
揭秘时空之谜:穿越历史的神秘旅程
如何利用3D足部扫描仪提供科学依据,改善步态
有效降低血压:探索最适合饮用的降压茶种类与方法
北京5条亲子游路线推荐,春节带娃不用愁!
湖南将新增东西横向高速通道!缓解沪昆高速通行压力
林正英的道士传奇:《僵尸先生》中的九叔形象解析
光的波粒二象性:从古希腊到量子力学的探索之旅
《沟通的艺术》教你化解送礼尴尬