问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

北航团队提出SPN4CIR：基于大模型的正负例扩充技术提升组合图像检索性能

创作时间:

作者:

@小白创作中心

北航团队提出SPN4CIR：基于大模型的正负例扩充技术提升组合图像检索性能

引用

CSDN

1.

https://blog.csdn.net/weixin_45783724/article/details/141170628

本文介绍了一篇关于组合图像检索（CIR）的研究论文，该论文已被ACMMM2024接收。研究团队来自北京航空航天大学，他们提出了一种基于大模型的正负例扩充技术（SPN4CIR），有效提升了对比学习性能。

任务介绍

组合图像检索（Composed Image Retrieval, CIR）任务与传统的图像检索和图文检索不同，它需要利用参考图像和修改文本作为组合输入对，来搜索目标图像。标注好的（参考图像，修改文本，目标图像）组成了CIR任务的正例三元组。

动机

CIR任务的模型一般使用Dual Encoder的架构，通过对比学习进行训练。然而，传统方法存在以下两个问题：

缺乏正例：以往的方法使用人工标注的数量有限的三元组中的查询对-目标图像作为正例。
缺乏负例：使用批内（in-batch）负采样策略，将一个batch内其他的目标图像与当前的查询对作为负例。

主要贡献

研究团队提出了两种创新方法来解决上述问题：

基于多模态大语言模型的CIR三元组生成方法：将CIR中的正例数量从人工标注的20k提升到了100k。
两阶段微调策略：第一阶段同时微调query编码器和target编码器，第二阶段冻住target编码器，将整个候选图像集的表征预先计算并存储下来，只微调query编码器，将candidate set中其他的所有图像作为负例。

实验结果表明，这两种方法可以即插即用到现有的dual encoder架构有监督CIR模型中，且两个方法可以叠加从而带来更大的效果提升。在四个先进模型（CLIP4CIR，TGCIR，BLIP4CIR，SPRC）上都取得了1%-6%的提升，达到了新的SOTA。

方法

技术1：正例扩充

正例扩充方法包含4个步骤：

标题生成：使用llava-v1对训练集中的每张图像生成标题。
图像对匹配：使用unicom作为图像编码器，计算图像之间的搜索排序，选择排序不高也不低的图像对作为参考图像和目标图像。
修改文本生成：使用提示模板对参考图像和目标图像对应的标题进行拼接。
正例构造：将参考图像、修改文本和目标图像组合成新的三元组。

技术2：负例扩充

负例扩充方法包含3个步骤：

负例构造：通过实证研究发现，替换目标图像得到的负例效果最好。
两阶段微调-阶段1-批内负采样：保持一般CIR方法使用的批内对比学习。
两阶段微调-阶段2-候选图像集负采样：冻住目标图像编码器，只微调查询编码器，利用整个候选图像集中的其他图像作为负例。

实验

所有实验都在一张V100上进行，对基于视觉语言训练模型的四个先进模型进行了实验。第二阶段的训练时间只有第一阶段的1/20左右，因此提出的两阶段微调策略的额外开销较小。

有监督实验

在FashionIQ和CIRR的有监督实验中，SPN在两个数据集的四种方法上都提升了1%-6%。

消融实验

在CLIP4CIR模型上进行了消融实验，发现正例扩充和负例扩充方法都能够稳定地提升模型效果。

零样本实验

在零样本实验中，使用正例扩充方法，随机选取了CC3M中的50k张图像，尽管使用了最少的图像，仍然取得了明显更好的效果。在域内设置下，使用FashionIQ和CIRR中的图像来构建训练三元组进行训练，发现可以超过域外设置，这证明了方法在低资源无监督场景下的有效性。

开源地址

论文代码已开源，欢迎访问：https://github.com/BUAADreamer/SPN4CIR

热门推荐

改善房间太闷空气不流通的方法及原因分析

改善房间太闷空气不流通的方法及原因分析

八字仇神也是忌神吗,大运用神的作用与影响

八字仇神也是忌神吗,大运用神的作用与影响

去医院检查肝功能流程

去医院检查肝功能流程

汕尾陆丰十大特色美食：从大安蒜到碣石肉丸

汕尾陆丰十大特色美食：从大安蒜到碣石肉丸

实测续航不足官标六成？岚图用户抱怨续航问题

实测续航不足官标六成？岚图用户抱怨续航问题

宝可梦朱紫准神阵容搭配攻略

宝可梦朱紫准神阵容搭配攻略

互联网企业API调用与数据爬取的法律边界管理

互联网企业API调用与数据爬取的法律边界管理

半飞秒和全飞秒区别：近视手术恢复期要多久

半飞秒和全飞秒区别：近视手术恢复期要多久

3月乒乓球比赛一览：中外名将云集重庆冠军赛，全运会资格赛打响

3月乒乓球比赛一览：中外名将云集重庆冠军赛，全运会资格赛打响

CAD小白常用设置指南

CAD小白常用设置指南

大盘趋势识别：如何识别股票市场的大盘趋势

大盘趋势识别：如何识别股票市场的大盘趋势

你是否有过无聊情绪？点击查看心理解读

你是否有过无聊情绪？点击查看心理解读

Excel公式错误处理指南：多种方法隐藏错误信息

Excel公式错误处理指南：多种方法隐藏错误信息

二月初三啥日子？提醒“1不卖，2要晒，吃3样”，事业学业双丰收

二月初三啥日子？提醒“1不卖，2要晒，吃3样”，事业学业双丰收

舌苔发白的原因与改善方法：健康状况的反映与日常护理建议

舌苔发白的原因与改善方法：健康状况的反映与日常护理建议

学习原画需要哪些准备？

学习原画需要哪些准备？

胆囊壁增厚：病因、症状与治疗全解析

胆囊壁增厚：病因、症状与治疗全解析

徐州市中医院“熏洗一号”：传承中医智慧，创新肛肠疾病治疗

徐州市中医院“熏洗一号”：传承中医智慧，创新肛肠疾病治疗

解码长寿之乡：饮食习惯对寿命的惊人影响 - 揭秘百岁老人长寿的餐桌秘密

解码长寿之乡：饮食习惯对寿命的惊人影响 - 揭秘百岁老人长寿的餐桌秘密

活字印刷术的发展现状与未来展望

活字印刷术的发展现状与未来展望

打游戏也会"晕车"？《黑神话：悟空》玩家遭遇电子晕动症

打游戏也会"晕车"？《黑神话：悟空》玩家遭遇电子晕动症

掌握曝光技巧：光圈、快门速度与ISO的完美调节指南

掌握曝光技巧：光圈、快门速度与ISO的完美调节指南

离开福利院儿童应办理哪些手续

离开福利院儿童应办理哪些手续

中小学教师资格考试网如何制定复习计划？

中小学教师资格考试网如何制定复习计划？

都灵vs蒙扎赛事前瞻分析：都灵队赛季发挥中规中矩

都灵vs蒙扎赛事前瞻分析：都灵队赛季发挥中规中矩

轮胎怎样进行有效散热？有效散热的轮胎对行驶有哪些影响？

轮胎怎样进行有效散热？有效散热的轮胎对行驶有哪些影响？

复发性口腔溃疡的常见原因与预防措施

复发性口腔溃疡的常见原因与预防措施

《战地风云2042》配件系统详解：从解锁到实战应用全攻略

《战地风云2042》配件系统详解：从解锁到实战应用全攻略

在中国签证逾期了几天怎么办？解决方案与流程全解析

在中国签证逾期了几天怎么办？解决方案与流程全解析

如何计算黄金的换算公式？

如何计算黄金的换算公式？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号