李沐也看好的方向:多模态+预训练中的模态融合策略
创作时间:
作者:
@小白创作中心
李沐也看好的方向:多模态+预训练中的模态融合策略
引用
CSDN
1.
https://m.blog.csdn.net/AIzhijie001/article/details/143572300
李沐大神前阵子在上交大的演讲大家关注了没,听完确实认同多模态才是当下的一个趋势。大神强调,多模态模型将文本、图片、视频和语音结合起来,是当前AI发展的一个重要趋势。多模态模型不仅能扩展文本模型的能力,还能通过文本来控制和定制其他模态的输出,这大大降低了使用门槛。
预训练范式在多模态数据领域取得了进展,提高了从跨模态到完全多模态的各种任务的性能。例如,CLIP(Contrastive Language-Image Pre-training)在WIT数据集上进行预训练,联合训练了图像编码器和文本编码器,并在多个视觉和视觉-语言数据集上进行了性能测试。
论文精选
ChartAssistant:通过图表到表格预训练和多任务指令调优的通用图表多模态语言模型
方法
- 两阶段训练过程:ChartAssistant模型采用两阶段训练方法,首先进行图表到表格的预训练,然后进行多任务指令调优的微调。
- 图表到表格预训练(Chart-to-Table Pre-training):通过将图表解析成对应的文本表格,使模型能够理解图表中的元素和它们之间的关系。
- 多任务指令调优(Multitask Instruction Tuning):使用ChartSFT数据集,包含多种图表相关任务,对模型进行微调,以提高其在各种图表任务上的性能。
- ChartSFT数据集构建:构建了一个大规模的图表特定指令调优基准数据集,包含39M个图表-文本标注数据,涵盖了基本和专业类型的图表。
创新点
- 图表到表格预训练:通过预训练步骤,ChartAssistant能够将图表与结构化文本对齐,为后续的多任务学习打下基础。
- 多任务指令调优:通过在ChartSFT数据集上进行多任务学习,ChartAssistant能够在单一模型上实现对多种图表相关任务的强性能。
- ChartSFT数据集:提供了一个更全面、更多样化的图表任务和类型的数据集,与以往的基准数据集相比,ChartSFT在数据注释的质量和范围上都有显著提升。
- 零样本学习:ChartAssistant在零样本设置下表现出色,即使在没有见过的图表数据上也能取得显著的性能提升。
CIRP:用于多模态产品捆绑的跨项目关系预训练
方法
- 多模态编码器:使用多模态编码器生成图像和文本表示。
- 跨项目对比损失(CIC)和个体项目的图像-文本对比损失(ITC):作为预训练目标,通过CIC损失使相关项目表示更接近,通过ITC损失保持跨模态对齐。
- 关系修剪模块:移除噪声和冗余关系,减少计算成本。
- 产品捆绑模型ItemKNN:将CIRP提取的项目表示应用于产品捆绑模型。
创新点
- 跨项目关系建模:首次将跨项目关系信息整合到多模态预训练模型中,用于产品捆绑。
- CIRP框架:同时建模个体项目的语义和跨项目关系,即使对于冷启动项目也能生成关系感知的多模态表示。
- 关系修剪模块:提出一种新颖的关系修剪模块,提高预训练效率和效果。
- 实验结果:在三个电子商务数据集上的实验结果证明了CIRP在效果和效率方面的竞争性能。
COSMO:具有交错预训练的对比流线型多模态模型
方法
- 对比损失引入:将对比损失引入文本生成模型,提出COSMO框架,将语言模型分割成专门的单模态文本处理和多模态数据处理组件。
- 统一框架:COSMO框架合并单模态和多模态元素,增强了涉及文本和视觉数据任务的模型性能,同时显著减少可学习参数。
- 交错数据集Howto-Interlink7M:引入一个创新的交错视频-文本数据集,以弥补高质量长文本视频数据集的不足。
- 模型架构:提出一个能够处理四种不同类型输入(包括交错数据)的新架构,旨在纠正Flamingo架构的局限性。
创新点
- 对比流线型多模态框架(COSMO):提出了一个新的架构,通过额外的对比损失进行交错数据预训练,以34%的可学习参数实现了显著的性能提升。
- 交错视频-文本数据集(Howto-Interlink7M):引入了一个高质量的交错视频-文本数据集,这是长文本多模态数据集的一个重要补充。
- 性能提升:展示了顶级交错视频-文本数据在多种图像-文本和视频-文本任务中提升模型性能的能力。
- 减少参数和数据效率:在公共数据集上使用更少的样本实现了优于OpenFlamingo的性能,同时减少了模型的参数数量。
Design as Desired:利用视觉问题回答进行多模态预训练
方法
- 多粒度VQA设计:利用医疗报告中的描述设计与不同疾病相关的多粒度问题-答案对,协助框架在预训练中无需额外专家注释。
- Quasi-textual Feature Transformer(QFT)模块:提出一个新颖的预训练框架,包含QFT模块,通过对比学习策略将视觉特征转换为接近文本域的准文本空间。
- 对比学习策略:通过QFT模块的对比学习任务,缩小视觉和语言模态之间的分布差距,提高模型的视觉理解能力。
创新点
- 多模态预训练中的VQA应用:首次在医疗领域利用VQA进行多模态预训练,帮助框架关注不同病理特征,无需额外专家注释。
- QFT模块与对比学习策略:提出了QFT模块,通过对比学习策略将视觉特征对齐到准文本域,缩小模态差距,促进模态对齐。
- 下游任务的性能提升:在报告生成、分类、检测和分割四个下游任务中展示了该框架相比其他最先进方法的显著改进。
热门推荐
惊蛰说梨:从花到果的文化韵味与温情记忆
《骆驼祥子》虎妞性格及她和祥子的命运关系
高考地理中的峡湾地貌
开票人员应承担的责任与义务
民事案件确定管辖法院的一般原则
研究生北京落户条件:法律解读与实务指南
通信工程师如何快速提升自己?
公务员一级科员待遇详解:薪资、福利及职业发展全攻略
Chainalysis报告:加密诈骗正从庞氏骗局转向杀猪盘
购买二手iPhone之前你需要检查的13件事
股票技术入门:十二张图看懂股票全方位技术分析
养生米糊的制作方法(用传统的方式制作美味的养生米糊)
癌胚抗原测定(CEA):原理、方法与临床应用
《许三观卖血记》再版:余华最温暖的小说
研究生不用考就能上是真的吗
高开后的股票是否存在调整机会 - 高开后的股票是否受到市场情绪的影响
ICL晶体植入与飞秒激光哪种好,两者各有优缺点,特点/适用人群等不同!
科学与创新:祖冲之与大明历的创制
万龙觉醒城市建设攻略:主堡等级、学院建设与阵营选择全解析
机械手表:时间与工艺的完美结合
录音录像是否需要当事人同意才合法?
指纹锁怎么录入指纹的流程
如何规划地铁建设以提升城市交通?这些建设方案有哪些优缺点?
广州塔“扭”动背后的科技秘密
哪句话,曾鼓励了你很久很久?
三等功是什么概念?了解三等功的定义和评定标准
密固达用药护理指南
豆粕供需基本面及成本探究
农村随处可见的侧柏,果壳可以填枕头,叶可以洗头,籽可以制香!
细思极恐!起底非法贩卖个人信息黑色产业链