直播中的面部吸引力预测:首个大规模数据集与多模态模型
直播中的面部吸引力预测:首个大规模数据集与多模态模型
面部吸引力预测(FAP)是一个具有挑战性的研究领域,因为美丽的标准往往是国家性而非全球性。这意味着没有一个有效的基于人工智能的数据集是可行的,因为从所有文化中抽样面孔/评级获得的平均平均值会非常有偏差(人口更多的国家会获得更多的吸引力),否则适用于毫无文化(其中多场比赛/评分的平均值不等同于没有实际比赛)。
研究背景
到目前为止,面部吸引力预测 (FAP) 主要在心理学研究、美容和化妆品行业以及整容手术的背景下进行研究。这是一个具有挑战性的研究领域,因为美丽的标准往往是国家性而非全球性。这意味着没有一个有效的基于人工智能的数据集是可行的,因为从所有文化中抽样面孔/评级获得的平均平均值会非常有偏差(人口更多的国家会获得更多的吸引力),否则适用于毫无文化(其中多场比赛/评分的平均值不等同于没有实际比赛)。
相反,挑战在于发展概念方法论以及可以处理特定国家或文化数据的工作流程,以便开发有效的每个区域的 FAP 模型。FAP 在美容和心理研究中的用例非常边缘,否则就是行业特定的;因此迄今为止整理的大多数数据集仅包含有限的数据,或者根本没有发布。在线吸引力预测器的易用性主要针对西方受众,并不一定代表 FAP 的最新水平,目前 FAP 似乎由东亚研究(主要是中国)和相应的东亚数据集主导。
美容评估的更广泛商业用途包括网上约会应用以及旨在“修饰”人物的真实头像(因为此类应用需要量化的美感标准作为有效性的衡量标准)。
研究方法
为了解决FAP数据集的短缺问题,中国研究人员正在提供第一个大规模FAP数据集,其中包含100,000张人脸图像,以及200,000个用于评估面部美感的人工注释。
该数据集包含 10,000 个不同的身份,全部于 2024 年从(未指定的)直播平台捕获。作者还提出了一种新的多模态 FAP 方法 FPEM。FPEM 集成了整体面部先验知识和多模态美学语义功能通过个性化吸引力优先模块(PAPM)、多模式吸引力编码器模块(MAEM)和跨模式融合模块(CMFM)。
论文认为,FPEM 在新的 LiveBeauty 数据集和其他 FAP 数据集上实现了最佳性能。作者指出,这项研究在提高视频质量、内容推荐和直播中的面部修饰方面具有潜在的应用价值。作者还承诺“很快”提供数据集 - 尽管必须承认,源领域固有的任何许可限制似乎可能会传递给可能使用该作品的大多数适用项目。这款新文标题为直播中的面部吸引力预测:新的基准和多模态方法,来自阿里巴巴集团和上海交通大学的十位研究人员。
数据收集与预处理
研究人员在直播平台的每 10 小时直播中,前三个小时每小时挑选一张图片,并选出页面浏览量最高的直播。收集的数据随后经过几个预处理阶段。其中第一个是脸部区域尺寸测量,采用基于 2018 CPU 的脸部彩盒检测模型生成围绕面部轮廓的边界框。该流程确保边界框的短边超过 90 像素,从而避免出现小的或不清晰的面部区域。
第二步是模糊检测,它通过使用拉普拉斯算子在面部裁剪的高度(Y)通道中。此方差必须大于 10,这有助于滤除模糊的图像。第三步是面部姿势估计,使用 20213DDFA-V2姿态估计模型:
这里的工作流程确保裁剪后的脸部的俯仰角不大于 20 度,偏航角不大于 15 度,从而排除具有极端姿势的脸部。第四步是面部比例评估,同样利用了3DDFA-V2模型的分割能力,保证裁剪后的人脸区域占比大于图片的60%,排除人脸不突出的图像,即在整体图片中占比较小的。最后,第五步是删除重复字符它使用(未归因的)最先进的人脸识别模型,用于处理在 10 小时视频中收集的三张图像中的多张图像中出现同一身份的情况。
人工评估和注释
研究人员招募了 14 名注释者,其中包括 6.7 名男性和 14 名女性,反映了所用实时平台的人口统计数据。在一致的实验室条件下,面部显示在 iPhone XNUMX Pro Max 的 XNUMX 英寸屏幕上。评估分为 200 个环节,每个环节使用 50 张图片。受试者被要求以 1-5 分的分数对样本的面部吸引力进行评分,每个环节之间有五分钟的休息时间,所有受试者都参加所有环节。因此,对 10,000 名人类受试者的全部 200,000 幅图像进行了评估,得出了 XNUMX 条注释。
数据分析与预处理
首先,使用异常值比率和斯皮尔曼等级相关系数(SROCC)。评分的受试者的 SROCC 小于 0.75 或局外人比例大于2%的被认为不可靠并被删除,最终获得20名受试者。然后,通过对有效受试者获得的分数进行平均,计算出每张人脸图像的平均意见分数 (MOS)。MOS 用作基本事实为每个图像添加吸引力标签,并通过对每个有效主题的所有单独分数进行平均来计算分数。最后,对所有样本以及女性和男性样本的 MOS 分布的分析表明,它们表现出高斯形状,这与现实世界的面部吸引力分布一致:
大多数人的面部吸引力都处于平均水平,而吸引力极低或极高的个体则较少。此外,分析偏度和峰度值表明,分布的特点是尾部细长,集中在平均分数附近,并且高吸引力在女性样本中更为普遍在收集的直播视频中。
模型架构
LiveBeauty 中的面部优先增强多模态模型 (FPEM) 和混合融合阶段采用了两阶段训练策略,分为四个模块:个性化吸引力优先模块 (PAPM)、多模态吸引力编码器模块 (MAEM)、跨模态融合模块 (CMFM) 和决策融合模块 (DFM)。
PAPM 模块以图像作为输入,并使用旋转变压器并使用预训练的面对网模型。然后使用交叉注意力块来创建个性化的“吸引力”特征。此外,在初步训练阶段,MAEM 使用吸引力的图像和文字描述,利用CLIP提取多模态美学语义特征。模板化的文本描述形式为“一张具有{a}魅力的人的照片”(哪里{一种}可坏,贫困,公平,非常好or)。该过程估计余弦相似度在文本和视觉嵌入之间得出吸引力水平概率。
在混合融合阶段,CMFM 使用 PAPM 生成的个性化吸引力特征细化文本嵌入,从而生成个性化文本嵌入。然后它使用相似性回归策略来做出预测。最后,DFM 将 PAPM、MAEM 和 CMFM 的各个预测结合起来,得出一个最终的吸引力得分,目标是达成稳固的共识
损失函数
对于损失指标,PAPM 使用L1损失,衡量预测吸引力得分与实际(基本事实)吸引力得分之间的绝对差异。MAEM 模块使用更复杂的损失函数,该函数结合了评分损失 (LS) 和合并排名损失 (LR)。排名损失 (LR) 包括保真度损失 (LR1) 和双向排名损失(LR2)。LR1 比较图像对的相对吸引力,而 LR2 确保吸引力水平的预测概率分布具有单峰且在两个方向上均下降。这种组合方法旨在优化基于吸引力的图像的准确评分和正确排序。CMFM 和 DFM 使用简单的 L1 损失进行训练。
实验结果
在测试中,研究人员将 LiveBeauty 与之前九种方法进行了对比:组合网;二维FAP;REX-INCEP;CNN-ER(收录于REX-INCEP);美颜;AV-MLSP;交通信息网;德莱-Trans;和饮食.符合形象美学评估(IAA)协议也进行了测试。这些维生素B;ResNeXt-50;和Inception-V3.除了 LiveBeauty 之外,其他测试的数据集包括华南理工大学-FBP5000和 MEBeauty。下面比较这些数据集的 MOS 分布:
这些访客数据集分别是分裂60%-40% 和 80%-20% 分别用于训练和测试,以保持与原始协议的一致性。LiveBeauty 的分成比例为 90%-10%。对于 MAEM 中的模型初始化,分别使用 VT-B/16 和 GPT-2 作为图像和文本编码器,通过 CLIP 中的设置进行初始化。对于 PAPM,使用 Swin-T 作为可训练图像编码器,符合斯温菲斯.这款亚当使用了优化器,并且学习率调度设置线性热身下一个余弦退火方案。学习率在训练阶段有所不同,但每个阶段都有一个批量大小32,为 50时代.
上面显示了对三个 FAP 数据集进行测试的结果。关于这些结果,论文指出:“我们提出的方法在 LiveBeauty、MEBeauty 和 SCUT-FBP0.012 上的 SROCC 值分别取得第一名和超过第二名约 0.081、0.021、5500,证明了我们提出的方法的优越性。“IAA 方法不如 FAP 方法,这表明通用美学评估方法忽视了面部吸引力主观性所涉及的面部特征,导致 FAP 任务表现不佳。”“所有方法在 MEBeauty 上的表现都大幅下降。这是因为训练样本有限,而且 MEBeauty 中的面孔种族多样,这表明面部吸引力存在很大差异。”“所有这些因素使得 MEBeauty 中面部吸引力的预测变得更具挑战性。”