问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

细粒度识别综述:概念、数据集与研究进展

创作时间:
作者:
@小白创作中心

细粒度识别综述:概念、数据集与研究进展

引用
CSDN
1.
https://blog.csdn.net/m0_74137224/article/details/134844129

细粒度识别是计算机视觉领域的一个重要研究方向,主要关注如何区分视觉上非常相似的物体类别。本文将从细粒度识别的概念出发,介绍常用的训练和测试数据集,并总结近年来的研究进展。

一、细粒度(fine-grained)的概念

细粒度识别主要解决的是相似目标的检测问题。与粗粒度分类(如区分猫和狗)不同,细粒度分类需要识别更细微的差别,例如区分杜宾犬和金毛。这种分类任务对模型的精度要求更高,传统的目标检测方法(如YOLO系列)往往难以达到理想的效果。



二、常用的细粒度分类训练和测试的数据集

  1. Stanford Dogs
  • 包含120种狗,每个类别有150张图片
  • 图像总数:20580
  • 基于ImageNet的图像和注释构建
  • 分为12,000张训练图像和8,580张测试图像
  1. CUB200-2011 Caltech-UCSD Birds-200-2011
  • 包含200个鸟类子类别
  • 每类有30+训练图像
  • 总共11,788张图像
  • 5,994张训练图像,5,794张测试图像
  • 每张图像包含15个局部部位标注点、312个二值属性和语义分割图像
  • 每张图像收集了10个自然语言描述

  1. Oxford Flowers
  • 分为17类和102类两种规模
  • 102类版本每类包含40到258张图像
  • 总共8,189张图像
  • 只提供语义分割图像,无其他额外标注信息
  • 图像具有较大的比例、姿势和光线变化
  1. FGVC-Aircraft Fine-Grained Visual Classification of Aircraft
  • 包含10,200张飞机图像
  • 100种不同飞机模型变体,每种102张图像
  • 每张图像带有紧密边界框和分层飞机模型标签
  • 四级层次结构:型号、变体、家庭、制造商
  • 数据分为训练、验证和测试三个子集

  1. Stanford-Cars
  • 由196类汽车组成
  • 共有16,185张图像
  • 8,144张训练图像,8,041张测试图像
  • 类别通常位于品牌、型号、年份级别
  • 图像尺寸为360×240

三、细粒度识别的研究方向

近年来,细粒度识别的研究主要集中在以下几个方向:

  • 局部特征提取:通过检测和描述物体的局部特征来提高分类精度
  • 注意力机制:利用注意力机制聚焦于区分性特征
  • 多模态融合:结合图像和文本信息进行分类
  • 迁移学习:利用预训练模型进行微调

对于更详细的论文和研究方向,可以参考GitHub上的相关资源:

LionRoarRoar/Awesome-Fine-grained-Visual-Classification

四、机器学习数据集推荐

对于从事机器学习和计算机视觉研究的读者,以下网站值得推荐:

  • paperswithcode

  • 特点:将ArXiv上的最新论文与GitHub上的代码对应起来

  • 包含8,916个机器学习数据集

  • 优点:节省查找和整理数据集的时间

  • ImageNet

  • 由斯坦福大学教授Li Fei-Fei创建

  • 包含数百万张有标签的图像

  • 每年举行图像识别挑战赛

  • 在计算机视觉领域有深远影响

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号