问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Distill-DKP:利用深度图与 RGB 图像,优化自监督关键点检测

创作时间:
作者:
@小白创作中心

Distill-DKP:利用深度图与 RGB 图像,优化自监督关键点检测

引用
1
来源
1.
https://cloud.tencent.com/developer/article/2483409

Distill-DKP是一种创新的跨模态知识蒸馏框架,通过结合深度图和RGB图像来优化自监督关键点检测。该方法在多个基准数据集上取得了显著的性能提升,为解决复杂背景下的关键点检测问题提供了新的思路。

现有无监督的关键点检测方法通过人为地扭曲图像,如将图像的大部分变为深度图,并将原始图像的重建作为学习目标来检测关键点。然而,这种方法在图像中缺乏深度信息,通常在背景上检测到关键点。

为了解决这个问题,作者提出了一种名为Distill-DKP的新颖跨模态知识蒸馏框架,用于在自监督设置中进行关键点检测,该框架利用深度图和RGB图像。在训练期间,Distill-DKP从基于深度图的教师模型中提取嵌入 Level 的知识,以指导具有推理限制的基于图像的学生模型。

实验表明,Distill-DKP在Human3.6M数据集上的平均L2误差降低了47.15%,在Taichi数据集上的平均平均误差降低了5.67%,并在DeepFashion数据集上的关键点精度提高了1.3%。详细的本征值研究证明了在不同层网络中的知识蒸馏的敏感性。

I Introduction

检测准确的特征点对于计算机视觉的许多下游应用至关重要,如人体姿态估计、活动识别和计算机图形学。在缺乏标注的数据集[3]的情况下,这一任务变得更加具有挑战性。最近,自监督学习(SSL)[2, 5, 27]的进步显示了从数据中学习有意义表示的潜力,并产生了与监督方法相当的性能。

为了在无监督方式下检测关键点,现有模型依赖于两种方法:一种是学习预测图像被遮挡部分的 Mask [7],另一种是从随机噪声中生成图像。然而,这两种目标都不迫使这些模型理解图像的深度,这对于理解感兴趣物体的完整拓扑结构至关重要。这一局限性导致以下关键问题。

(i) 在具有结构背景的图像中,关键点通常出现在背景元素上,因此图像中前景和背景组件的区分在图像[7]中失败。

(ii) 仅依赖2D RGB图像的 无监督方法缺乏必要的深度信息,导致关键点检测不准确。

(iii) 为了减轻复杂背景的问题,现有方法通常使用背景 Mask ,将感兴趣的目标从背景中隔离。然而,在实际场景中,这些 Mask 并非总是可用的。

为了解决这些问题,作者提出了Distill-DKP,该方法利用跨模态知识蒸馏(KD)来增强关键点检测。作者的方法在训练时使用RGB图像和深度图,但在推理时只使用RGB图像。作者的方法首先在深度图上训练一个自监督学习框架,以利用其区分前景和背景的优越能力。训练好的模型作为老师。学生模型使用RGB图像作为输入,从老师模型(在深度图上预训练)中蒸馏深度信息。对于KD,作者试图在嵌入层面上最小化余弦相似度损失,以确保学生从老师捕捉到的深度信息中学习。

作者在三个基准数据集上评估Distill-DKP:TaiChi [23],DeepFashion [14]和Human3.6M [9],并在所有数据集上取得显著的性能提升。作者主要的贡献如下:

(1)作者提出了一个名为Distill-DKP的新颖跨模态知识蒸馏框架,该框架利用深度图的特征来增强关键点检测。

(2)作者在多个基准数据集上展示了相对于现有方法显著的性能提升。

(3)通过详细的环境分析,作者展示了深度和图像模态之间KD的层间敏感性,并为此领域的跨模态KD理解做出了贡献。

II Related Works

跨模态知识蒸馏(Cross-modal Knowledge Distillation):传统的知识蒸馏方法主要关注在同一模态内,从大型教师模型向较小的学生模型进行知识迁移。相比之下,跨模态知识蒸馏方法关注在学生-教师设置下,在不同模态之间进行知识迁移,推理限制在学生模态。在2020年,Wang等人[25]开发了一种使用教师-学生框架从肌无力导致的失语症(speech impaired by muscle weakness)中提取语言特征的语音转换方法。在2022年,Ni等人[17]开发了一种从视觉到传感器的知识蒸馏方法,用于动作识别。在2023年,Liu等人[13]提出了一种跨模态知识蒸馏方法,使得压缩域的模型可以从基于原始域的模型中学习,用于视频字幕生成。近年来,Sarkar等人[20]引入了一种域对齐策略,以解决音频视觉之间的差异,从而改进视频表示学习中的跨模态知识蒸馏。Shome等人[22]提出了EmoDistill,该方法从语调语言教师和语言教师中蒸馏知识,用于语音情感识别。Chen等人[1]提出了一种跨模态多教师对比蒸馏架构,用于学习医学视觉语言表示。文献表明,跨模态知识蒸馏方法在多个领域和数据模态中具有巨大的潜力。

无监督关键点检测:无监督学习已成为关键点检测中的重要方法,使模型可以在不需要大型标注数据集的情况下进行学习 [6]。最常用的无监督关键点检测技术是将人工变形应用于图像 [15]。在这种方法中,关键点通常检测在背景中 [29]。在此基础上,2021年,He 等人提出了 LatentKeypointGAN [6] 和 GanSeg [8],该方法使用 GANs 从噪声中生成图像并带有关键点。然而,这种方法存在训练 GAN 和有限适用性的挑战。为了解决这些挑战,在 2022 年,He 等人提出了 AutoLink [7],一种自监督方法,通过将目标表示为带有关键点的图来检测关键点,其中关键点由可学习边连接的节点。这些边图然后与 Mask 图像 ConCat ,用于训练关键点检测器。文献表明,无监督关键点检测方法无法捕捉深度信息,这在区分感兴趣的目标和背景方面至关重要。

III Methodology

作者的框架旨在通过深度图和RGB图像之间的跨模态KD来提高关键点检测。在训练过程中,作者同时使用两种模态,但在推理时仅依赖RGB图像。该框架主要由两个主要组件组成:一个基于深度图的教师模型和一个基于图像的學生模型,两者都采用AutoLink框架[7]。

AutoLink Overview

自动链接[7]是一个用于检测图像中的关键点的SSL框架,该框架将目标表示为图形,其中关键点由可学习边相连的节点组成。该框架包括三个关键模块,如图1所示:

Distill-DKP

IV Experiments

Datasets and Evaluation Metrics

作者在三个基准数据集上评估Distill-DKP:Human3.6M(带背景)[9],DeepFashion [14],和Taichi [23]。作者对所有基准数据集的数据大小、训练协议和评估方法与AutoLink [7]保持一致。为了在Human3.6M上评估作者的模型,作者将回归的平均L2误差归一化为图像大小。在DeepFashion [14]上,作者通过在分辨率下6像素内的正确关键点百分比来评估作者的模型,这些真实关键点由Alphapose [4]生成。对于Taichi [23],作者使用了2,673个训练视频和285个测试视频。在评估时,作者计算Mean Average Error (MAE),即在分辨率下的图像上的L2误差的总和。由于Taichi数据集的训练样本比AutoLink [7]少,作者使用他们的官方代码[7]来重新计算结果,以进行公平比较。

实现细节作者在所有数据集上使用单个英伟达A100 GPU,批处理大小为64,使用Adam优化器[12]进行训练,学习率为。对于人3.6M和DeepFashion,作者选择边缘厚度()值为,遵循AutoLink[7]的方法。对于Taichi数据集,作者根据ablation实验(见图3)选择,对于人3.6M和DeepFashion数据集选择。作者在每个数据集上训练Distill-DKP for 20K次迭代。

Results and Discussion

作者将Distill-DKP在各个数据集上训练和评估了10次,并报告了平均值和标准差。如表1所示,作者的模型在之前的几种方法上取得了显著的性能改进[6, 7, 8, 15]。在Human3.6M(背景)数据集上,Distill-DKP的平均L2误差为3.62,比之前的最佳结果低47.15%。这在图2中也有所体现,AutoLink [7]通常在背景结构上检测到关键点,而Distill-DKP则能准确检测到不同姿态下的人类身体上的关键点。在Taichi数据集上,作者的模型实现了平均平均误差306.9,比之前的最佳结果低5.67%。在DeepFashion数据集上,Distill-DKP达到了67.3%的准确率,比之前的最佳结果高1.3%。作者认为,在DeepFashion和Taichi上的轻微改进主要是由于在这些数据集上的强度较弱,而在Human3.6M上的则较强。然而,如图2所示,作者的模型在肘部等关键点上的关键点与身体关节的对齐效果更好,特别是在DeepFashion中的肘部和Taichi中的膝盖和下背部。这些结果共同证明了作者在利用深度信息处理复杂背景和多样化人体姿态(Human3.6M,Taichi)上的模型的一般化能力,以及处理更简单背景和不同外观(DeepFashion)的能力。

消融研究。作者进行了详细的消融测试,以了解关键点检测器不同层对KD的敏感性以及Distill-DKP不同组件的性能。如表2所示,在无深度教师()的情况下,作者观察到性能显著下降。接下来,作者仅测试深度教师模型()的性能,并观察到在Human3.6M(WB)上,尽管与Distill-DKP相比略有性能下降,但与无变体相比,它表现出显著的改进。这可以归因于从深度图中学习的知识,其中前景中的人体结构比背景中的结构更重要。然而,由于Taichi的相对较大姿态以及与Human3.6M和DeepFashion数据集几乎无背景信息相比,作者观察到与无变体相比,性能显著下降。这表明对Human 3.6M是一个强大的教师,而在Taichi和DeepFashion数据集上作为一个弱教师。

为了更全面地了解KD在不同层上的影响,作者分别使用(4)和(5)中不同的损失系数γ对关键点检测器的三层关键层(输出层、中层次的Transposed Convolution(TC)和早期ResNet层)的嵌入进行KD处理,γ的取值范围从0.1到1用于Human3.6M和Taichi,而对于DeepFashion数据集,作者选择较小的范围0.01到0.1,因为其背景较为简单。作者在DeepFashion上发现,当γ值较高时,模型在DeepFashion上的性能会退化。如图3所示,在所有数据集上,对输出层应用KD始终能获得最佳结果。尽管在Human3.6M上,不同γ值下性能仍优于之前的方法,但作者发现当γ=0.1时,性能最佳。在DeepFashion上,当γ=0.1时,在输出层嵌入上应用KD能获得最佳性能。在Taichi上,当γ=0.4时,在输出层嵌入上应用KD能获得最佳性能。KD对中层次TC层的贡献也呈积极趋势,但比输出层的影响稍小。相比之下,ResNet层对整体性能的影响有限。这表明,在网络后期的KD更有利于优化模型性能。

V Conclusion

作者引入了Distill-DKP,这是一个利用图像与深度模态之间跨模态知识蒸馏的框架。在训练过程中,作者模型同时使用深度图和RGB图像,其中深度教师为图像学生提供嵌入级别的指导。

在推理过程中,Distill-DKP仅操作RGB图像,减少了计算开销的同时保持了高性能。实验表明,作者的方法优于先前最先进的方法。通过详细的消融研究,作者突出了方法不同组成部分的敏感性。Distill-DKP在背景复杂度是一个主要挑战的场景中尤其有效,并且去除背景不需要额外的计算。此外,由于Distill-DKP保持了自监督学习(SSL)框架,它不需要标注数据即可运行,确保了其在多样化、真实世界环境中的适用性。作为未来的工作,作者计划将方法扩展到3D关键点检测,并探索其在更复杂和遮挡背景中的应用。

参考文献

[0]. Self-Supervised Keypoint Detection with Distilled Depth Keypoint Representation.

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号