图像搜索迎来革命性突破:北大团队实现多风格统一检索
图像搜索迎来革命性突破:北大团队实现多风格统一检索
近日,北京大学袁粒课题组联合多家机构提出了一种全新的图像检索方法——通用风格检索(Style-Diversified Retrieval),该方法能够在面对多样化的查询风格时仍能精准找图。这一突破性进展不仅提升了图像检索的灵活性和准确性,还为未来的图像搜索技术开辟了新的道路。这项研究已被收录于ECCV 2024,并在arXiv上公开了相关论文和代码。
传统图片检索主要依赖文本查询,查询方法单一,且在使用其他检索方案时性能一般。而北大团队提出的通用风格检索方法,能够根据多样化的查询风格(如草图、艺术画、低分辨率图像和文本等)来检索相应图像,甚至支持组合查询(草图+文本、艺术+文本等)。
为了实现这一目标,研究团队进行了两项关键工作:构建专有的检索数据集,并提出即插即用的FreestyleRet框架,使传统检索模型也能快速具有通用检索能力。
在数据集构建方面,团队生成并构建了细粒度检索数据集DSR(Diverse-Style Retrieval Dataset),该数据集包括10,000张自然图片以及对应的四种检索风格(文本、草图、低分辨率、卡通艺术)。此外,团队还采用ImageNet-X作为大尺寸粗粒度的多风格检索数据集,该数据集包含100万张带有各种风格标注的自然图片。
FreestyleRet框架通过将图片风格提取并注入,有效解决了当前图片检索模型无法兼容不同类型的检索向量的问题。具体来说,框架设计了三个核心模块:
基于格拉姆矩阵的风格提取模块:用于显式提取未知查询向量的风格表征。团队采用冻结的VGG轻量化网络对查询向量进行表征编码,并选取浅层卷积表征作为风格提取的基特征。
风格空间构建模块:通过对风格表征聚类从而构建检索的风格空间,并将聚类中心作为风格的一致性表征。具体采用K-Means聚类算法,迭代式地计算不同风格的查询向量集合对应的聚类中心。
风格启发的提示微调模块:通过对检索模型的Transformer layer进行风格初始化的插值,实现对现有检索模型的多风格查询能力扩展。在encoder layer的每层都插入使用量化风格表征初始化的可学习token,从而实现风格向编码器注入的流程。
在实验性能方面,团队分析了基于FreestyleRet架构的BLIP和CLIP模型在DSR数据集以及ImageNet-X数据集的Recall@1, Recall@5性能。实验证明,面对多种风格的查询向量时,FreestyleRet框架可以显著增强现有检索模型的泛化能力,具有2-4%的提升。此外,该框架对于多个不同风格的查询向量共同输入的性能也表现出良好的扩展性。
这一研究成果不仅在技术上实现了突破,还为未来的图像搜索技术开辟了新的道路。随着该方法的进一步完善和应用,我们有望看到更加智能、灵活的图像检索系统,为用户带来更好的使用体验。