搜索图片有新招了!北大提出图像检索新方法
搜索图片有新招了!北大提出图像检索新方法
从一大堆图片中精准找图,有新招了!北京大学袁粒课题组联合南洋理工大学实验室、清华自动化所提出了一种新的通用检索任务:通用风格检索(Style-Diversified Retrieval)。这种检索任务要求模型面对风格多样的查询条件时,依然能精准找图。
传统图片检索的痛点
当前,图像检索的一大痛点是:让检索模型具备理解多样化用户查询向量的能力。通俗点说就是,不管用户用哪种方式检索查询,最后都能命中用户想要的图像。
新图像检索方法
为此,研究团队进行了两项重要工作:
构建专有的检索数据集:包括10,000张自然图片以及对应的四种检索风格(文本、草图、低分辨率、卡通艺术)。其中的草图标注由FSCOCO数据集提供,卡通艺术图片和低分辨率图像由AnimateDiff生成。同时,团队也采用ImageNet-X作为大尺寸粗粒度的多风格检索数据集。ImageNet-X包括100万张带有各种风格标注的自然图片,相较于DSR,ImageNet-X数据集的图片更加简单,便于检索。
提出即插即用的框架FreestyleRet:通过将图片风格提取并注入,有效解决了当前图片检索模型无法兼容不同类型的检索向量的问题。
FreestyleRet框架的核心模块
围绕如何理解不同风格的查询向量语义信息以及如何利用现有图文检索模型这两个核心问题,团队设计了三个模块:
基于格拉姆矩阵的风格提取模块:用于显式提取未知查询向量的风格表征。
风格空间构建模块:通过对风格表征聚类从而构建检索的风格空间,并将聚类中心作为风格的一致性表征。
风格启发的提示微调模块:通过对检索模型的Transformer layer进行风格初始化的插值,实现对现有检索模型的多风格查询能力扩展。
实验性能展示
在定量实验角度,团队分析了基于FreestyleRet架构的BLIP和CLIP模型在DSR数据集以及ImageNet-X数据集的Recall@1, Recall@5性能。实验证明,面对多种风格的查询向量时,FreestyleRet框架可以显著增强现有检索模型的泛化能力,具有2-4%的提升。
总结
这项研究提出的通用风格检索方法和FreestyleRet框架,为解决图像检索中的风格多样性问题提供了创新性的解决方案。相关论文已在ECCV 2024被接收,并在arXiv上公开,代码和数据集也已开源,为学术界和工业界提供了重要的研究资源。