从静态到动态:基于地标感知图像模型的面部表情识别新方法
从静态到动态:基于地标感知图像模型的面部表情识别新方法
动态面部表情识别(DFER)是计算机视觉领域的一个重要研究方向,其目标是通过视频分析来识别和理解人类面部表情的变化。然而,与静态面部表情识别(SFER)相比,DFER面临着数据数量不足、标注质量差以及时间维度建模困难等挑战。为了解决这些问题,研究者们提出了多种方法,包括3D卷积神经网络、2D卷积神经网络与递归神经网络的结合以及基于Transformer的模型。然而,这些方法往往缺乏专门针对FER域设计的显式动态捕获过程,难以完全捕捉面部表情的时间动态。
研究背景与挑战
DFER的主要挑战包括:
数据和标注质量:公开的DFER数据集通常通过收集电影或电视剧中的视频构建,与大规模的SFER数据集相比,在样本数量和受试者数量上存在显著差异。此外,视频数据中面部表情的复杂性和注释者的主观性导致DFER数据集的标注模糊性更高。
时间维度建模:与静态图像相比,视频剪辑包含重要的时间信息。准确捕捉情绪的动态变化是实现高性能DFER建模的关键。
相关工作
现有的DFER方法主要包括:
- 基于3D CNN的方法:虽然能够同时对时间和空间信息进行建模,但计算成本高且模型不易扩展。
- 2D CNN与RNN的结合:先从每帧中提取特征,然后对时间信息进行建模。
- 基于Transformer的方法:利用空间Transformer和时间Transformer进行时空融合。
主要贡献
研究者提出了一种名为S2D(Static to Dynamic)的框架,其主要创新点包括:
图像级表示增强:利用在AffectNet上学习的静态特征和面部地标感知特征作为先验知识。通过多视图互补提示器(MCP)融合这两个特征,显著增强图像级表示。
时间建模适配器(TMA):将静态FER模型有效地扩展为动态FER模型。TMA模块仅调整整个模型的不到10%的参数,保持了极高的参数效率。
基于情感锚点的自蒸馏损失(SDL):通过一组参考样本生成更可靠的软标签,进一步改善DFER模型的性能。
整体框架
S2D框架的核心组件包括:
- 图像级别的特征增强:
- 静态面部表情特征:在AffectNet数据集上预训练,获得鲁棒的表情外观表示。
- 面部关键点感知特征:使用Mobile-FaceNet进行关键点检测,增强模型对真实面部表情的表现能力。
- 引导提示生成:通过多视图互补提示器(MCP)模块生成引导提示。
- 图像模型到高效视频模型的扩展:
- 时间建模适配器(TMA):位于Transformer层之间,包含Temporal Adapter、LayerNorm层和Vanilla Adapter。
- 基于情感锚点的自蒸馏损失(SDL):提供辅助监督信号,防止模糊的情感标签影响模型性能。
实验结果
研究者在多个基准数据集上进行了实验,包括RAF-DB、AFFECTNET-7、DFEW、FERV 39K和MAFW。实验结果表明,S2D框架在大多数数据集上都取得了与现有最先进方法相当甚至更好的性能。特别是在快乐、悲伤、中性、愤怒等情感类别上表现突出。
可视化分析
通过注意力可视化和特征分布可视化,研究者展示了S2D模型在捕捉面部关键区域和动态表情变化方面的优势。此外,输出概率分布的可视化进一步验证了自蒸馏损失(SDL)的有效性,特别是在处理模糊表情时。
总结
S2D框架通过利用SFER的先验知识和面部地标信息,为DFER提供了一个简单而强大的解决方案。该方法不仅在多个基准数据集上取得了优异的性能,而且保持了较高的参数效率。未来的研究方向可能包括探索更有效的先验知识利用方法,以及在更多实际应用场景中的验证。