问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

公开人脸识别数据集汇总

创作时间:
作者:
@小白创作中心

公开人脸识别数据集汇总

引用
CSDN
1.
https://blog.csdn.net/YMilton/article/details/120503287

人脸识别技术是人工智能领域的重要研究方向之一,而高质量的数据集是推动这一技术发展的重要基础。本文汇总了21个常用的人脸识别数据集,涵盖了不同应用场景和需求,包括口罩人脸、高质量人脸、化妆人脸、动漫人脸等多种类型,为研究人员和开发者提供了丰富的资源选择。

1. FaceMask CelebA 数据集

FaceMask CelebA 是一个模拟的口罩人脸数据集,通过将从网上下载的口罩图像(RGBA)粘贴到人脸图像上创建。数据集包含 202599 张口罩人脸图像和人脸边界框标签,适用于人脸检测任务。

2. Flicker-Faces-HQ 数据集

Flickr-Faces-HQ 数据集是一个高质量的人脸图像数据集,主要用于训练生成对抗网络(GAN)模型。数据集包含 70000 张分辨率为 1024×1024 的 PNG 图像,涵盖了年龄、种族、图像背景以及眼镜、太阳镜、帽子等附件的多样性。图像使用 dlib 算法自动对齐和裁剪。

3. Make up 数据集

Make up 数据集是为了研究人脸化妆对面部识别的影响而汇总的女性面部图像数据集。数据集主要收集了四个来源的数据:

  • YMU(YouTube 化妆):从 YouTube 视频化妆教程中获取的人脸图像。
  • VMU(虚拟化妆):通过对 FRGC 存储库中白人女性的面部图像进行合成,以实现模拟化妆的效果。
  • MIW:从互联网上抓取已化妆和未化妆的人脸面部图像。
  • MIFS(化妆诱发的面部欺骗):从 YouTube 视频化妆教程中获取对象的面部图像,并从互联网上获取相关目标对象的面部图像。

不同类型的数据集数量各不相同,适用于人脸美妆相关应用。

4. VoxCeleb 数据集

VoxCeleb 数据集是一个视听数据集,包含来自 YouTube 采访视频的简短语音剪辑。数据集包含来自不同种族、口音、专业和年龄的 700 位演讲者的演讲。所有说话的脸部表情都被抓取,并带有背景聊天、笑声、重叠语音、姿势变化和不同的照明条件。数据集包含 2000 个小时的音频和视频,每个片段至少 3 秒长,适用于说话人识别、情绪识别和人脸生成等应用。

5. Anime-Face-Dataset 数据集

Anime-Face-Dataset 中的动漫人脸全部来自高质量动画网站 www.getchu.com。使用动画面部检测算法对人脸进行检测,并将尺寸缩放到 9090-120120。适用于人脸生成等应用。

6. Generated Faces 数据集

Generated Faces 数据集是一个用于多样化合成的定制数据集。用户可以根据需求定制数据集,包括:

  • 可自定义的背景:彩色、透明、摄影
  • 多样性:种族、人口统计学、面部表情和头部姿势
    适用于生成人脸、情绪识别和人脸识别等应用。

7. RMFD 口罩人脸数据集

RMFD 口罩人脸数据集是在疫情期间设计的,用于帮助社区封闭时的人员进出管控、车站机场的人脸识别闸机以及人脸门禁考勤设备的升级。数据集包含:

  • 真实口罩人脸识别数据集:从网络爬取样本,经过整理、清洗和标注后,含 525 人的 5 千张口罩人脸和 9 万正常人脸。
  • 模拟口罩人脸识别数据集:给公开数据集中的人脸戴上口罩,得到 1 万人、50 万张人脸的模拟口罩人脸数据集。
  • 真实口罩人脸验证数据集:包括 426 个人的 4015 张人脸图像,组合成 3589 对相同身份和 3589 对不同身份的人脸样本对(口罩人脸/正常人脸)。

适用于人脸检测和人脸识别算法的训练。

8. Glint360K 数据集

Glint360K 是格灵深瞳开源的数据集,通过清理、合并和发布最大且最干净的面部识别数据集。数据集包含 360232 个人的 17091657 张图片,适用于人脸识别应用。

9. Celebrity in Places 数据集

Celebrity in Places 数据集包含不同类型场景中的名人图像,全部通过 Google 图像搜索获得,并通过人工注释进行验证。数据集包含约 36k 名人的图像,涉及 4611 位名人和 16 个地方。例如,第一张图片的标签为“阿曼达·塞弗里德-机场航站楼”,第二张图片的标签为“大卫·卡梅隆-宴会厅”。适用于人脸识别和场景分类等应用。

10. Public Figures Face 人脸数据集

从互联网收集的人脸数据集,包括 200 个人的 58797 张图像。同一人的图像具有不受控的参数环境,包括不同的姿势、光照、场景、镜头、摄像参数等,适用于人脸识别应用。

11. NIST Mugshot Identification 人脸数据集

美国国家标准及技术研究所发布的面部自动化识别测试数据。包含 1573 位个人(男 1495、女 78)的 3248 张面部照片,包括正脸照和侧脸照。其中 131 人有一张以上正脸照,1418 人只有一张正脸照;89 人有一张以上侧脸照,1268 人只有一张侧脸照。适用于人脸识别应用。

12. Caltech 10k Web Faces 人脸数据集

来自 Google 图像搜索后的人工标注人脸图像数据集,包含 10524 张人脸图像和标注信息,标注了眼睛、鼻子和嘴巴的位置,并在不同的设置中,例如肖像图像、人群等。适用于人脸检测和人脸对齐等应用。

13. IMDB-WIKI 500k 跨年龄人脸数据集

包含名人人脸图像、年龄、性别的数据集,图像和年龄、性别信息从 IMDB 和 WiKi 网站抓取。总计 524230 张名人人脸图像及对应的年龄和性别。其中,获取自 IMDB 的 460723 张,获取自 WiKi 的 62328 张。适用于人脸识别和年龄识别等应用。

14. 300 Face in Wild 人脸检测数据集

一个人脸识别和轮廓标注数据集,也是机器视觉等级会议 ICCV 2013 人脸检测竞赛所使用的数据集。适用于人脸检测等应用。

15. Facial-keypoints 人脸关键点数据集【Kaggle竞赛】

人脸关键点标定竞赛数据集,为图像中的人脸标定 15 个关键位置点,图像为 96x96 像素,每个关键点对应一个二维位置坐标用以标识关键点的位置。适用于人脸对齐等应用。

16. MegaFace 人脸识别数据库

最大的公开面部识别数据集,所有数据都是华盛顿大学从 Flickr(雅虎旗下图片分享网站)组织收集的。包含一百万张图片,代表 690000 个独特的人。适用于人脸识别等应用。

17. Wider-Face 人脸检测数据集

人脸检测基准数据集,主要用于身份鉴定,由香港中文大学的 Yang,Shuo and Luo,Ping and Loy,Chen Change and Tang,Xiaoou 收集发布。它包含 32203 个图像和 393703 个人脸图像,在尺度、姿势、闭塞、表达、装扮、光照等方面表现出了大的变化。该数据集基于 61 个事件类进行组织。对于每个事件类,随机选择了 40%/ 10%/ 50% 的数据作为培训、验证和测试集。适用于人脸检测等应用。

18. IJB-B 数据集

美国国家标准化研究院(NIST)发布的大型人脸数据集,包括从互联网采集的静态人脸图像和视频。共有 1845 个对象,11754 张图片,55026 视频帧,7011 个视频和 10044 非人脸图像。该数据集在采集上与其它流行的人脸数据集不重叠,如:牛津大学 VGG 人脸数据集 Face Challenge、CASIA WEBFace 数据集等。数据集被用于 NIST 举办的 Face Challenge 竞赛,进行校验、搜索、检测、聚类、标注等人脸识别任务。适用于人脸聚类和人脸识别等应用。

19. MS-Celeb-1M 数据集

MSR IRC 是目前世界上规模最大、水平最高的图像识别赛事之一,由 MSRA(微软亚洲研究院)图像分析、大数据挖掘研究组组长张磊发起,每年定期举办。从 1M 个名人中,根据他们的受欢迎程度,选择 100K 个。然后,利用搜索引擎,给 100K 个人,每人搜大概 100 张图片。共 100K*100=10M 个图片,测试集包括 1000 个名人,这 1000 个名人来自于 1M 个明星中随机挑选。而且经过微软标注。每个名人大概有 20 张图片,这些图片都是网上找不到的。适用于人脸识别和人脸检测等应用。

20. Casia-webface 数据集

2014 年中科院发布,收集了 10000 多个名人的照片。包含 453453 幅人脸图像的数据集,经人脸检测后共识别出超过 10575 个身份,然而,这些照片是在网上用爬虫扒下来的,所以有一些数据存在问题,这里对这个数据集做清洗。适用于人脸识别等应用。

21. LFW 数据集

人脸图片均通过 Viola-Jones 人脸检测算法从互联网上检索搜集。包含 13000 张从互联网上获取的人脸图像,每张图片都标有该人的姓名,其中有 1680 个人的有超过 2 张图像,共有四个子数据集,分别为 原始数据集(lfw)、funneled images、LFW-a、deep funneled images 四组。适用于人脸识别等应用。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号