问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DCNv2:可变形卷积网络v2的改进与应用

创作时间:
作者:
@小白创作中心

DCNv2:可变形卷积网络v2的改进与应用

引用
CSDN
1.
https://m.blog.csdn.net/Together_CZ/article/details/145012346

可变形卷积网络(DCN)是近年来在计算机视觉领域取得突破性进展的技术之一,特别是在目标检测和实例分割任务中。本文将详细介绍DCN的最新版本——DCNv2,它通过引入更多的可变形卷积层和调制机制,并结合R-CNN特征模仿,显著提升了模型的性能,尤其是在处理复杂几何变化时表现出色。

背景与动机

可变形卷积网络(DCNv1)通过引入可变形卷积和可变形RoI池化模块,能够适应物体的几何变化,显著提升了目标检测和实例分割的性能。然而,DCNv1的空间支持区域有时会超出感兴趣区域,导致特征受到无关图像内容的影响。

改进点

增强的可变形建模

DCNv2在更多的卷积层中引入可变形卷积模块,并增加了调制机制,允许网络不仅调整采样位置,还能调整每个采样点的特征幅度,从而更精确地控制空间支持区域。

R-CNN特征模仿

为了帮助网络更好地聚焦于感兴趣区域,DCNv2引入了特征模仿损失,通过模仿R-CNN的特征来指导训练,使网络学习到更聚焦的特征表示。

实验与结果

在COCO基准测试上,DCNv2在目标检测和实例分割任务中显著优于DCNv1和常规卷积网络。实验表明,增强的可变形建模和特征模仿机制有效提升了模型的性能,尤其是在处理复杂几何变化时。

贡献

DCNv2通过增强的可变形建模和特征模仿机制,显著提升了模型对几何变化的适应能力,并在多个基准测试中取得了领先的结果。代码将公开发布,便于进一步研究和应用。

可变形卷积网络行为分析

为了更好地理解可变形卷积网络的行为,研究者通过有效感受野、有效采样位置和误差有界的显著性区域来可视化网络节点的空间支持。这三种方式提供了对节点响应的不同且互补的视角。

可变形卷积网络v2

增强的可变形建模

为了增强可变形卷积网络的建模能力,研究者在网络的更多层中引入可变形卷积模块。具体来说,在ResNet-50的conv3-conv5阶段的所有3×3卷积层中应用可变形卷积。因此,网络中有12层可变形卷积。相比之下,[7]中仅使用了三层可变形卷积,全部在conv5阶段。

调制的可变形模块

为了进一步增强可变形卷积网络在操纵空间支持区域方面的能力,引入了调制机制。通过它,可变形卷积网络模块不仅可以调整感知输入特征的偏移,还可以调制来自不同空间位置/bin的输入特征幅度。在极端情况下,模块可以通过将其特征幅度设置为零来决定不从特定位置/bin感知信号。因此,来自相应空间位置的图像内容对模块输出的影响将大大减少或没有影响。因此,调制机制为网络模块提供了另一个自由度来调整其空间支持区域。

R-CNN特征模仿

如图2所示,对于常规卷积网络和可变形卷积网络,每个RoI分类节点的误差有界显著性区域可以延伸到RoI之外。因此,RoI之外的图像内容可能会影响提取的特征,从而降低目标检测的最终结果。

在[5]中,作者发现冗余上下文是Faster R-CNN检测错误的可能来源。结合其他动机(例如,在分类和边界框回归分支之间共享更少的特征),作者提出结合Faster R-CNN和R-CNN的分类分数以获得最终检测分数。由于R-CNN分类分数集中在输入RoI的裁剪图像内容上,结合它们将有助于缓解冗余上下文问题并提高检测准确性。然而,组合系统速度较慢,因为Faster-RCNN和R-CNN分支都需要在训练和推理中应用。

同时,可变形卷积网络在调整空间支持区域方面非常强大。特别是对于可变形卷积网络v2,调制的可变形RoI池化模块可以简单地设置bin的调制标量,以排除冗余上下文。然而,我们在第5.3节中的实验表明,即使使用调制的可变形模块,通过标准的Faster R-CNN训练程序也无法很好地学习这种表示。我们怀疑这是因为传统的Faster R-CNN训练损失无法有效驱动这种表示的学习。需要额外的指导来引导训练。

受最近关于特征模仿[1, 21, 26]的工作的启发,研究者在Deformable Faster R-CNN的每个RoI特征上引入了特征模仿损失,以强制它们与从裁剪图像中提取的R-CNN特征相似。这个辅助训练目标旨在驱动Deformable Faster R-CNN学习更像R-CNN的“聚焦”特征表示。研究者注意到,基于图2中可视化的空间支持区域,聚焦特征表示可能不适用于图像背景上的负RoI。对于背景区域,可能需要考虑更多的上下文信息,以避免产生误报检测。因此,特征模仿损失仅在足够与真实物体重叠的正RoI上强制执行。

训练Deformable Faster R-CNN的网络架构如图3所示。除了Faster R-CNN网络外,还添加了一个额外的R-CNN分支用于特征模仿。给定一个用于特征模仿的RoI b,对应的图像块被裁剪并调整为224×224像素。在R-CNN分支中,骨干网络在调整大小的图像块上运行,并生成14×14空间分辨率的特征图。在特征图之上应用(调制的)可变形RoI池化层,其中输入RoI覆盖整个调整大小的图像块(左上角在(0,0),高度和宽度为224像素)。之后,应用两个1024-D的fc层,生成输入图像块的R-CNN特征表示,记为fRCNN(b)。随后是一个(C+1)路Softmax分类器,其中C表示前景类别的数量,加上一个背景类别。特征模仿损失在R-CNN特征表示fRCNN(b)和Faster R-CNN中的对应特征fFRCNN(b)之间强制执行,后者也是1024-D,由Fast R-CNN头中的2个fc层生成。特征模仿损失定义为fRCNN(b)和fFRCNN(b)之间的余弦相似度,计算为:

其中Ω表示用于特征模仿训练的RoI集合。在SGD训练中,给定一个输入图像,RPN生成的32个正区域提议被随机采样到Ω中。在R-CNN分类头上强制执行交叉熵分类损失,也在Ω中的RoI上计算。网络训练由特征模仿损失和R-CNN分类损失以及Faster R-CNN中的原始损失项驱动。两个新引入的损失项的损失权重是原始Faster R-CNN损失项的0.1倍。R-CNN和Faster R-CNN分支中相应模块之间的网络参数是共享的,包括骨干网络、(调制的)可变形RoI池化和2个fc头(两个分支中的分类头未共享)。在推理中,仅在测试图像上应用Faster R-CNN网络,而不使用辅助的R-CNN分支。因此,R-CNN特征模仿在推理中不会引入额外的计算。

相关工作

变形建模是计算机视觉中的一个长期问题,在设计平移不变特征方面已经做出了巨大的努力。在深度学习时代之前,著名的工作包括尺度不变特征变换(SIFT)[29]、定向FAST和旋转BRIEF(ORB)[33]以及可变形部分模型(DPM)[11]。这些工作受到手工特征表示能力不足和它们处理的几何变换家族受限(例如仿射变换)的限制。空间变换网络(STN)[24]是第一个学习深度CNN平移不变特征的工作。它学习应用全局仿射变换来扭曲特征图,但这种变换不足以建模许多视觉任务中遇到的更复杂的几何变化。与执行全局参数变换和特征扭曲不同,可变形卷积网络通过可变形卷积和可变形RoI池化模块中的可学习偏移,以局部和密集的方式对特征图进行采样。可变形卷积网络是第一个在复杂视觉任务(例如目标检测和语义分割)中有效建模几何变换的工作,并在具有挑战性的基准上取得了成功。

研究者的工作通过增强其建模能力和促进网络训练扩展了可变形卷积网络。这个新版本的可变形卷积网络在原始模型的基础上取得了显著的性能提升。

实验

实验设置

研究者的消融实验在COCO 2017训练集的118k图像上进行。评估在COCO 2017验证集的5k图像上进行。研究者还在COCO 2017测试开发集的20k图像上评估性能,模型在COCO 2017训练和验证集的联合集上训练。使用不同框和掩码IoU下的标准平均精度分数分别测量目标检测和实例分割的准确性。

选择Faster R-CNN和Mask R-CNN作为基线系统。使用ImageNet[8]预训练的ResNet-50作为骨干。Faster R-CNN的实现与第3.3节中的相同。对于Mask R-CNN,研究者遵循[19]中的实现,因此使用FPN[27]。为了将网络转换为其可变形对应物,最后一组3×3常规卷积层(在自底向上计算中接近输出)被替换为(调制的)可变形卷积层。对齐的RoI池化被替换为(调制的)可变形RoI池化。特别地,对于Mask R-CNN,具有7×7和14×14 bin的两个对齐RoI池化层被替换为具有相同bin数的两个(调制的)可变形RoI池化层。在R-CNN特征模仿中,特征模仿损失仅在RoI头上强制执行以进行分类(不包括用于掩码估计的RoI头)。对于这两个系统,超参数的选择遵循最新的Detectron[17]代码库,这里简要介绍。在训练和推理中,图像被调整大小,使较短边为800像素,并使用5个尺度和3个纵横比的锚点。在训练和推理中,分别在非最大抑制阈值为0.7时生成2k和1k区域提议。在SGD训练中,256个锚框(正负比为1:1)和512个区域提议(正负比为1:3)被采样以反向传播其梯度。在研究者的实验中,网络在8个GPU上训练,每个GPU 2张图像,训练16个周期。学习率初始化为0.02,并在第10和第14个周期除以10。权重衰减和动量参数分别设置为10−4和0.9。

增强的变形建模

表1中的消融实验检查了增强变形建模的效果。使用常规CNN模块的基线在Faster R-CNN上获得了35.6%的APbbox分数,在Mask R-CNN上分别获得了37.8%和33.4%的APbbox和APmask分数。这个强大的基线与Detectron中的最新实现结果相匹配。为了获得DCNv1基线,研究者按照原始可变形卷积网络论文,将conv5阶段中的最后三层3×3卷积和对齐的RoI池化层替换为其可变形对应物。这个DCNv1基线在Faster R-CNN上获得了38.2%的APbbox分数,在Mask R-CNN上分别获得了40.3%和35.0%的APbbox和APmask分数。如[7]中观察到的,可变形模块显著提高了准确性。

通过将更多的3×3常规卷积层替换为其可变形对应物,Faster R-CNN和Mask R-CNN的准确性稳步提高,当conv3-conv5阶段的卷积层被替换时,APbbox和APmask分数提高了1.5%到2.0%。通过进一步替换conv2阶段的常规卷积层,在COCO基准上没有观察到额外的改进。通过将可变形模块升级为调制的可变形模块,研究者在APbbox和APmask分数上进一步获得了0.6%到1.0%的提升。总的来说,增强变形建模能力在Faster R-CNN上获得了40.8%的APbbox分数,比DCNv1基线高2.6%。在Mask R-CNN上,增强变形建模获得了42.7%的APbbox和37.0%的APmask分数,分别比DCNv1基线高2.4%和2.0%。请注意,增强变形建模所增加的参数和FLOPs相对于整个网络来说是微不足道的。

如图1(b)∼(c)所示,与DCNv1相比,增强的可变形建模的空间支持表现出更好的图像内容适应性。

R-CNN特征模仿

表2中的消融实验显示了R-CNN特征模仿设计选择的效果。在增强变形建模的基础上,R-CNN特征模仿进一步提高了Faster R-CNN和Mask R-CNN系统的APbbox和APmask分数,提高了约1%到1.6%。模仿对象前景上的正框的特征被发现特别有效,而模仿所有框或仅负框的结果要低得多。如图2(c)∼(d)所示,特征模仿可以帮助网络特征更好地聚焦于对象前景,这对正框有益。对于负框,网络倾向于利用更多的上下文信息(见图2),特征模仿不会有帮助。

研究者还将R-CNN特征模仿应用于没有任何可变形层的常规卷积网络。几乎没有观察到准确性提升。如图2(e)所示,即使有辅助模仿损失,可视化的空间支持区域也没有聚焦于对象前景。这可能是因为常规卷积网络无法将特征聚焦于对象前景,因此无法学习这一点。

在更强骨干网络上的应用

表3中展示了通过将ResNet-50替换为ResNet-101和ResNext-101[38]的结果。对于DCNv1条目,conv5阶段中的常规3×3卷积层被替换为其可变形对应物,对齐的RoI池化被替换为可变形RoI池化。对于DCNv2条目,conv3-conv5阶段中的所有3×3卷积层都是调制的可变形卷积,并使用调制的可变形RoI池化,由R-CNN特征模仿损失监督。DCNv2在所有网络骨干上显著优于常规卷积网络和DCNv1。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号