李沐也看好的方向:多模态+预训练中的模态融合策略
创作时间:
作者:
@小白创作中心
李沐也看好的方向:多模态+预训练中的模态融合策略
引用
CSDN
1.
https://m.blog.csdn.net/AIzhijie001/article/details/143572300
李沐大神前阵子在上交大的演讲大家关注了没,听完确实认同多模态才是当下的一个趋势。大神强调,多模态模型将文本、图片、视频和语音结合起来,是当前AI发展的一个重要趋势。多模态模型不仅能扩展文本模型的能力,还能通过文本来控制和定制其他模态的输出,这大大降低了使用门槛。
预训练范式在多模态数据领域取得了进展,提高了从跨模态到完全多模态的各种任务的性能。例如,CLIP(Contrastive Language-Image Pre-training)在WIT数据集上进行预训练,联合训练了图像编码器和文本编码器,并在多个视觉和视觉-语言数据集上进行了性能测试。
论文精选
ChartAssistant:通过图表到表格预训练和多任务指令调优的通用图表多模态语言模型
方法
- 两阶段训练过程:ChartAssistant模型采用两阶段训练方法,首先进行图表到表格的预训练,然后进行多任务指令调优的微调。
- 图表到表格预训练(Chart-to-Table Pre-training):通过将图表解析成对应的文本表格,使模型能够理解图表中的元素和它们之间的关系。
- 多任务指令调优(Multitask Instruction Tuning):使用ChartSFT数据集,包含多种图表相关任务,对模型进行微调,以提高其在各种图表任务上的性能。
- ChartSFT数据集构建:构建了一个大规模的图表特定指令调优基准数据集,包含39M个图表-文本标注数据,涵盖了基本和专业类型的图表。
创新点
- 图表到表格预训练:通过预训练步骤,ChartAssistant能够将图表与结构化文本对齐,为后续的多任务学习打下基础。
- 多任务指令调优:通过在ChartSFT数据集上进行多任务学习,ChartAssistant能够在单一模型上实现对多种图表相关任务的强性能。
- ChartSFT数据集:提供了一个更全面、更多样化的图表任务和类型的数据集,与以往的基准数据集相比,ChartSFT在数据注释的质量和范围上都有显著提升。
- 零样本学习:ChartAssistant在零样本设置下表现出色,即使在没有见过的图表数据上也能取得显著的性能提升。
CIRP:用于多模态产品捆绑的跨项目关系预训练
方法
- 多模态编码器:使用多模态编码器生成图像和文本表示。
- 跨项目对比损失(CIC)和个体项目的图像-文本对比损失(ITC):作为预训练目标,通过CIC损失使相关项目表示更接近,通过ITC损失保持跨模态对齐。
- 关系修剪模块:移除噪声和冗余关系,减少计算成本。
- 产品捆绑模型ItemKNN:将CIRP提取的项目表示应用于产品捆绑模型。
创新点
- 跨项目关系建模:首次将跨项目关系信息整合到多模态预训练模型中,用于产品捆绑。
- CIRP框架:同时建模个体项目的语义和跨项目关系,即使对于冷启动项目也能生成关系感知的多模态表示。
- 关系修剪模块:提出一种新颖的关系修剪模块,提高预训练效率和效果。
- 实验结果:在三个电子商务数据集上的实验结果证明了CIRP在效果和效率方面的竞争性能。
COSMO:具有交错预训练的对比流线型多模态模型
方法
- 对比损失引入:将对比损失引入文本生成模型,提出COSMO框架,将语言模型分割成专门的单模态文本处理和多模态数据处理组件。
- 统一框架:COSMO框架合并单模态和多模态元素,增强了涉及文本和视觉数据任务的模型性能,同时显著减少可学习参数。
- 交错数据集Howto-Interlink7M:引入一个创新的交错视频-文本数据集,以弥补高质量长文本视频数据集的不足。
- 模型架构:提出一个能够处理四种不同类型输入(包括交错数据)的新架构,旨在纠正Flamingo架构的局限性。
创新点
- 对比流线型多模态框架(COSMO):提出了一个新的架构,通过额外的对比损失进行交错数据预训练,以34%的可学习参数实现了显著的性能提升。
- 交错视频-文本数据集(Howto-Interlink7M):引入了一个高质量的交错视频-文本数据集,这是长文本多模态数据集的一个重要补充。
- 性能提升:展示了顶级交错视频-文本数据在多种图像-文本和视频-文本任务中提升模型性能的能力。
- 减少参数和数据效率:在公共数据集上使用更少的样本实现了优于OpenFlamingo的性能,同时减少了模型的参数数量。
Design as Desired:利用视觉问题回答进行多模态预训练
方法
- 多粒度VQA设计:利用医疗报告中的描述设计与不同疾病相关的多粒度问题-答案对,协助框架在预训练中无需额外专家注释。
- Quasi-textual Feature Transformer(QFT)模块:提出一个新颖的预训练框架,包含QFT模块,通过对比学习策略将视觉特征转换为接近文本域的准文本空间。
- 对比学习策略:通过QFT模块的对比学习任务,缩小视觉和语言模态之间的分布差距,提高模型的视觉理解能力。
创新点
- 多模态预训练中的VQA应用:首次在医疗领域利用VQA进行多模态预训练,帮助框架关注不同病理特征,无需额外专家注释。
- QFT模块与对比学习策略:提出了QFT模块,通过对比学习策略将视觉特征对齐到准文本域,缩小模态差距,促进模态对齐。
- 下游任务的性能提升:在报告生成、分类、检测和分割四个下游任务中展示了该框架相比其他最先进方法的显著改进。
热门推荐
重庆公交换乘优惠:一年省下5亿元的背后
夫妻分床睡,真的能增进感情吗?
选择健康烹饪方式的秘籍,享受美味同时拥抱健康
《再见爱人》热议:夫妻分床睡影响感情吗?
夫妻一起睡vs分开睡,谁才是睡眠赢家?
夫妻分床睡,孩子心理咋办?
退伍兵优待证在哪些旅游景区可以免费?全国多地景区优惠政策汇总
《大奉打更人》豆瓣5.4分:剧情失真、演技争议引发观众吐槽
《大奉打更人》豆瓣评分暴跌:剧情改编、特效制作与演员表现全解析
房票安置潮来了?未来拆迁“房、票、钱”3选1!选错要吃亏!
如何清洗茶杯上的茶渍,让茶杯焕然一新
LWR指标揭秘:股市高手都在用的秘密武器
电子眼误拍如何处理?处理后如何避免再次被误拍?
电子眼识别车牌的原理是什么?如何提高电子眼识别车牌的准确性?
AI Agent和NLP:智能助手背后的魔法搭档
沙坡头区创新社区戒毒模式:执行率100%、戒断率96%
广州共青团:多措并举助力青少年远离毒品
郑州健乐戒毒中心创新引入EFT情绪释放技术
科技创新引领戒毒新突破:重庆数字化平台与湖南多学科治疗模式的探索
2 种实用方法:如何在 Mac 桌面上隐藏外接硬盘图标
2 种实用方法:如何在 Mac 桌面上隐藏外接硬盘图标
团队游戏怎么上线说话——高效团队协作的关键
全家齐上阵,花式贴春联挑战
赵丹夺冠,钢架雪车女王闪耀世界杯
立春前后贴春联的正确姿势
身体5大信号揭示缺钙危机:识别与应对策略
人体缺钙会引起哪些疾病
《九重紫》爆红:李昀锐用“短剧思维”圈粉无数
大连十大秋季旅游景点推荐
《九重紫》豆瓣7.6分:争议与认可并存的古装剧佳作