李沐也看好的方向:多模态+预训练中的模态融合策略
创作时间:
作者:
@小白创作中心
李沐也看好的方向:多模态+预训练中的模态融合策略
引用
CSDN
1.
https://m.blog.csdn.net/AIzhijie001/article/details/143572300
李沐大神前阵子在上交大的演讲大家关注了没,听完确实认同多模态才是当下的一个趋势。大神强调,多模态模型将文本、图片、视频和语音结合起来,是当前AI发展的一个重要趋势。多模态模型不仅能扩展文本模型的能力,还能通过文本来控制和定制其他模态的输出,这大大降低了使用门槛。
预训练范式在多模态数据领域取得了进展,提高了从跨模态到完全多模态的各种任务的性能。例如,CLIP(Contrastive Language-Image Pre-training)在WIT数据集上进行预训练,联合训练了图像编码器和文本编码器,并在多个视觉和视觉-语言数据集上进行了性能测试。
论文精选
ChartAssistant:通过图表到表格预训练和多任务指令调优的通用图表多模态语言模型
方法
- 两阶段训练过程:ChartAssistant模型采用两阶段训练方法,首先进行图表到表格的预训练,然后进行多任务指令调优的微调。
- 图表到表格预训练(Chart-to-Table Pre-training):通过将图表解析成对应的文本表格,使模型能够理解图表中的元素和它们之间的关系。
- 多任务指令调优(Multitask Instruction Tuning):使用ChartSFT数据集,包含多种图表相关任务,对模型进行微调,以提高其在各种图表任务上的性能。
- ChartSFT数据集构建:构建了一个大规模的图表特定指令调优基准数据集,包含39M个图表-文本标注数据,涵盖了基本和专业类型的图表。
创新点
- 图表到表格预训练:通过预训练步骤,ChartAssistant能够将图表与结构化文本对齐,为后续的多任务学习打下基础。
- 多任务指令调优:通过在ChartSFT数据集上进行多任务学习,ChartAssistant能够在单一模型上实现对多种图表相关任务的强性能。
- ChartSFT数据集:提供了一个更全面、更多样化的图表任务和类型的数据集,与以往的基准数据集相比,ChartSFT在数据注释的质量和范围上都有显著提升。
- 零样本学习:ChartAssistant在零样本设置下表现出色,即使在没有见过的图表数据上也能取得显著的性能提升。
CIRP:用于多模态产品捆绑的跨项目关系预训练
方法
- 多模态编码器:使用多模态编码器生成图像和文本表示。
- 跨项目对比损失(CIC)和个体项目的图像-文本对比损失(ITC):作为预训练目标,通过CIC损失使相关项目表示更接近,通过ITC损失保持跨模态对齐。
- 关系修剪模块:移除噪声和冗余关系,减少计算成本。
- 产品捆绑模型ItemKNN:将CIRP提取的项目表示应用于产品捆绑模型。
创新点
- 跨项目关系建模:首次将跨项目关系信息整合到多模态预训练模型中,用于产品捆绑。
- CIRP框架:同时建模个体项目的语义和跨项目关系,即使对于冷启动项目也能生成关系感知的多模态表示。
- 关系修剪模块:提出一种新颖的关系修剪模块,提高预训练效率和效果。
- 实验结果:在三个电子商务数据集上的实验结果证明了CIRP在效果和效率方面的竞争性能。
COSMO:具有交错预训练的对比流线型多模态模型
方法
- 对比损失引入:将对比损失引入文本生成模型,提出COSMO框架,将语言模型分割成专门的单模态文本处理和多模态数据处理组件。
- 统一框架:COSMO框架合并单模态和多模态元素,增强了涉及文本和视觉数据任务的模型性能,同时显著减少可学习参数。
- 交错数据集Howto-Interlink7M:引入一个创新的交错视频-文本数据集,以弥补高质量长文本视频数据集的不足。
- 模型架构:提出一个能够处理四种不同类型输入(包括交错数据)的新架构,旨在纠正Flamingo架构的局限性。
创新点
- 对比流线型多模态框架(COSMO):提出了一个新的架构,通过额外的对比损失进行交错数据预训练,以34%的可学习参数实现了显著的性能提升。
- 交错视频-文本数据集(Howto-Interlink7M):引入了一个高质量的交错视频-文本数据集,这是长文本多模态数据集的一个重要补充。
- 性能提升:展示了顶级交错视频-文本数据在多种图像-文本和视频-文本任务中提升模型性能的能力。
- 减少参数和数据效率:在公共数据集上使用更少的样本实现了优于OpenFlamingo的性能,同时减少了模型的参数数量。
Design as Desired:利用视觉问题回答进行多模态预训练
方法
- 多粒度VQA设计:利用医疗报告中的描述设计与不同疾病相关的多粒度问题-答案对,协助框架在预训练中无需额外专家注释。
- Quasi-textual Feature Transformer(QFT)模块:提出一个新颖的预训练框架,包含QFT模块,通过对比学习策略将视觉特征转换为接近文本域的准文本空间。
- 对比学习策略:通过QFT模块的对比学习任务,缩小视觉和语言模态之间的分布差距,提高模型的视觉理解能力。
创新点
- 多模态预训练中的VQA应用:首次在医疗领域利用VQA进行多模态预训练,帮助框架关注不同病理特征,无需额外专家注释。
- QFT模块与对比学习策略:提出了QFT模块,通过对比学习策略将视觉特征对齐到准文本域,缩小模态差距,促进模态对齐。
- 下游任务的性能提升:在报告生成、分类、检测和分割四个下游任务中展示了该框架相比其他最先进方法的显著改进。
热门推荐
《追忆似水年华》:一部意识流文学的里程碑之作
常泰长江大桥建设动态:交通新纪元即将开启
修仙与科研哪个难?
简历中的项目经历怎么写
世间有两种人:老实人和虚伪不老实的人;真正的人才就在二者之中
《1984》:人们都在谈论自由,说出的话却满是枷锁
提升财产性收入的有效策略与方法解析
一文深入比特币作为货币的可能性有多大
马斯克推高金价
一桥大学主要专业设置及录取率详解
《生命3.0》:人工智能时代的生命进化之路
留学选择之路:澳洲与香港的比较分析
宠物博主月销2500万:从零到亿的商业传奇
信用卡逾期3天影响吗会有哪些后果
高校更名潮背后:变革与实力的双重考量
滴鸡精营养好处?滴鸡精饮用时机与禁忌,加码孕妈咪不同阶段推荐喝法!
中国古代的“九州”,是如何划分的?古今对照,你生活在哪个州?
机械手表的使用与保养攻略
洗洁精研究报告
春季肝火盛,可以这样开启自身“灭火器”
跑得快规则:轻松掌握这款流行扑克游戏的玩法
【科普】盛夏止咳,中医有妙招!
绿联NAS部署Gitea代码管理系统及外网访问配置教程
上海首个街头站立式非机动车充电桩启用
HIM继承人合集:家族与企业传承的法律之路
法定继承人范围及顺序的立法依据及现状分析
济南市区最宜居的十大板块分析
内部流动:打造组织专属人才市场
【植物界全系列】天南星科—美铁芋亚科
3046公里“绿围脖”彰显中国生态治理奇迹(凭栏天下)