问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

RAM++:基于多粒度文本监督的开放集图像标记模型

创作时间:
作者:
@小白创作中心

RAM++:基于多粒度文本监督的开放集图像标记模型

引用
CSDN
1.
https://blog.csdn.net/a486259/article/details/139721282

RAM++是一种新型的开放集图像标记模型,通过多粒度文本监督(包括全局文本监督和单个标签监督)来提升图像识别性能。相比现有技术,RAM++在多个基准测试中都取得了显著的性能提升,特别是在处理开放集类别时表现更优。

1. 引言

图像识别是计算机视觉领域的基础研究方向,需要机器能够根据给定的图像输出各种语义内容。目前,具有文本监督的视觉模型(如CLIP、ALIGN和Florence)通过大规模图像文本对学习全面的视觉概念,在单标签图像分类中展现出显著的开放集识别能力。

然而,这些模型主要依赖全局文本监督,对于复杂的多标签识别任务效果不佳。全局文本监督由于纠缠多种语义,导致对单个标签语义的影响显著减弱。例如,描述“a dog sits on a couch near a table”的全局嵌入与“狗”、“沙发”和“桌子”这些个体语义存在差异。

为了解决这一问题,RAM++提出了一种利用多粒度文本监督的开放集图像标记模型,集成了全局文本监督和单个标签监督。具体来说,RAM++在一个统一的对齐框架中合并了图像-标签-文本三联体,通过一个有效的对齐解码器与视觉空间特征交互。此外,RAM++还通过大型语言模型(LLMs)将标签监督转换为更广泛的标签描述监督,增强了模型的开放集识别能力。

2. 相关工作

  • 图像标记(Tag Supervision):传统方法主要依赖有限的手动标注数据集,泛化能力较差。虽然Tag2Text和RAM等模型获得了基于图像-文本对的大规模图像标签,但它们仍然受限于封闭集语义范围。

  • 文本监督(Text Supervision):像CLIP和ALIGN这样的模型通过数百万个图像-文本对在单标签图像分类中表现出显著性能,但它们对全局文本监督的依赖在多标签任务中存在局限性。

  • 描述监督(Description Supervision):之前的工作依赖于外部自然语言数据库,而RAM++率先将LLM知识集成到图像标记的训练过程中,以提高开放集能力。

3. 方法

3.1 框架概述

RAM++是一个基于多粒度文本监督的开放集图像标记模型,包括细节描述文本监督和标签描述监督。其体系结构包括图像编码器、文本编码器和对齐解码器。训练数据是图像-标签-文本三联体,模型输出对应于每个图像标签/文本对的对齐概率分数。

3.2 多粒度文本对齐

RAM++采用了一个共享的对齐解码器来同时对齐图像-文本和图像标签。这种设计避免了标签嵌入之间的相互影响,允许模型识别任意数量的标签类别。与其他流行的对齐范式相比,RAM++通过合并全局文本监督和单个标签监督,确保了对预定义和开放集类别的健壮标记性能。

3.3 基于LLM的标签描述

RAM++通过LLM将语义约束的标签监督转换为扩展的语义标签描述。具体来说,通过设计5个LLM提示来生成标签描述,并设计了一个自动重新加权模块来处理多个标签描述,以优化训练过程。

3.4 在线/离线设计

RAM++结合了在线/离线设计,确保图像文本对齐和图像标签过程的无缝集成。标签描述的嵌入可以离线预处理,而图像-文本对齐的文本嵌入则可以在各个batch中在线提取,以规避大量计算成本。

4. 实验

4.1 实验设置

  • 训练数据集:使用与Tag2Text和RAM相同的训练数据集,包括400万(4M)和1400万(14M)图像数据集。

  • 实现细节:使用在ImageNet上预训练的SwinBase作为图像编码器,采用ASL的鲁棒对齐损失函数。

  • 评估基准:采用平均平均精度(mAP)作为评价度量,在OpenImages、ImageNet和HICO等基准测试上评估模型性能。

4.2 与SOTA模型的比较

RAM++在各种基准测试中建立了新的SOTA零镜头性能。具体来说:

  • 在开放图像和ImageNet的常见类别上分别比CLIP强10.0 mAP和15.4 mAP。
  • 在开放集类别方面,RAM++在标签-不常见和短语-HOI上都显著优于RAM。
  • 在HICO上比RAM和CLIP提高了6.6 mAP和5.2 mAP。

4.3 多粒度监督分析

消融研究表明,多粒度文本监督显著提升了模型性能。使用ITTA的RAM++在各种基准测试中始终优于使用ITC的CLIP。此外,自动重新加权模块通过更具体和多样化的标签描述实现了更显著的改进。

5. 结论

RAM++通过多粒度文本监督在开放集图像标记任务中取得了显著性能提升。研究结果表明,整合自然语言知识可以显著增强视觉模型的性能,为未来的研究提供了新的思路。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号