问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

SCNet: 全1*1卷积的轻量图像超分辨率

创作时间:
作者:
@小白创作中心

SCNet: 全1*1卷积的轻量图像超分辨率

引用
CSDN
1.
https://blog.csdn.net/oYeZhou/article/details/137267416

深度学习模型在单图超分辨率(SISR)任务中取得了显著进展,但庞大的计算量阻碍了其在实时、资源受限环境中的应用。为了解决这一问题,研究者们提出了一个简单有效的全11卷积网络——移位卷积网络(SCNet),通过结合无参数的移位操作,使得全11卷积网络具备了强大的表示能力,同时保持了较高的计算效率。

摘要

深度学习模型尤其是大卷积核(33或更大)在单图超分辨率(single image superresolution,SISR)上取得显著进展。然而,庞大的计算量阻碍其在实时、资源受限环境中的应用。相反,11卷积在计算效率上能力可观,但却在局部空间表示聚合方面能力不足,而这恰恰却是SISR模型所需要的基本能力。为了解决该问题,我们提出了一个简单有效的全11卷积的网络,叫做移位卷积网络 (Shift-Conv-based Network,SCNet),通过结合无参数的移位操作,使得全11卷积网络具备了强大的表示能力,同时保持了较高的计算效率。大量实验表明,SCNets 尽管具有完全 1 × 1 卷积结构,但始终匹配甚至超越了使用常规卷积的现有轻量级 SR 模型的性能。

引言

单图像超分辨率(SISR)旨在从其对应的退化低分辨率(LR)图像重建高分辨率(HR)图像。随着深度学习的快速发展,它在研究界取得了实质性的进步,并引起了更多的关注[1,2]。开创性的工作SRCNN[3]提出通过卷积神经网络(CNN)学习从LR输入到HR输入的映射,并优于传统方法。随后,许多基于 CNN 的工作探索了更有效的架构[4-7]。除了 CNN 架构之外,还提出了基于transformer 的架构 [8],并实现了最先进的性能 (SOTA) 性能。

然而,上述模型通过非常深的或复杂的网络架构提高了 SISR 性能,导致参数数量和计算成本的负担很大。这使得在资源受限的环境中部署它们变得困难,例如移动或边缘设备。因此,对高效和轻量级的SR模型需求强烈。目前,已经提出了许多工作来减少参数的数量或浮点运算(FLOPs),以实现SISR的轻量级神经网络[9-14]。

3 × 3 卷积操作是基于 CNN 的模型中最常用的操作,因为它有利于平衡模型容量和计算成本。虽然较大的内核可以提高更好的性能,但它是以参数数量和计算成本的快速增长为代价的[15,16]。相反,大小为 1 × 1 的较小内核可以减少参数的数量,但由于感受野固定和相邻像素的局部特征聚合缺失,会损害学习能力。这就引出了一个自然的问题:我们能否实现两全其美,构建一个具有 1×1 卷积的轻量、有效的 SR 模型?

当直接用1 × 1卷积替换3 × 3卷积时,固定感受野和局部特征聚合的缺失会损害模型。为了解决这个问题,我们在本文中提出了一种新颖的方法,通过空间移位扩展 1×1 卷积。值得注意的是,空间移位操作是非参数的,不需要额外的FLOPs,这使得它可应用于高度优化的实际应用[17,18]。具体来说,我们将输入特征图沿通道维度分成不同的组,然后对每个组应用具有不同方向的空间移位操作。它确保生成的特征图中的每个像素都可以捕获近邻特征的聚合,弥合了在表示能力上与 3×3 卷积的差距,具体如图 3 所示。我们将这种通过空间移位操作的扩展 1×1 卷积称为 Shift-Conv 层(简称 SC 层)。与正常的 3 × 3 卷积相比,SC 层在保持差不多的性能的同时显着减少了参数的数量。

此外,本文还提出了一种具有1×1卷积层的轻量级但有效的SR模型,包含非常少的参数。当我们在八个方向上将步幅设置为 1 时,SC 层可以达到与正常 3 × 3 卷积类似的效果(PS:一个像素,有八个邻域,对应八个方向,若步长为一,恰好等于一个3*3卷积的感受野)。值得注意的是,通过选择自适应位置(如可变形卷积[19])可以实现不同的空间先验。不同空间先验的灵活性使 SC 层能够在扩展正常 3 × 3 卷积的感受野的同时减少参数。跟随广泛使用的残差块[5]的做法,我们提出了一个移位卷积残差块——SC-ResBlock。此外,我们提出了一个轻量级网络,由几个 SC-ResBlocks 堆叠,称为 SCNet。所提出的 SCNet 可扩展到不同的模型大小,并且由于 SC 层的参数数量很少,提供更多机会来利用更广泛或更深的架构。我们引入了三个具有不同模型大小的 SCNets:tiny (T)、base (B) 和 large (L)。此外,所提出的 SCNet 可以灵活地插入广泛的模块,例如广泛使用的注意力机制,为进一步研究提供了巨大的潜力。与其他不同大小的模型相比,所提出的 SCNets 在 Manga109 测试数据集 (×4) 上的性能如图 1 所示。结果表明,所提出的 SCNet 在 SR 结果和参数数量之间实现了更好的权衡。

主要贡献:首先,我们提出了第一个完全 1×1 卷积的 SISR 深度网络,阐明了轻量级架构的设计。其次,我们研究了正常 3 × 3 卷积中的特征聚合,并通过对通道维度进行手动空间移位操作来扩展 1×1 卷积和局部特征聚合。最后,我们提出了广泛的实验结果来验证所提出的 SCNet 的优越性,以及详细的消融研究,有助于理解各种组件的影响以及所提出的 SCNet 的可扩展性。

相关工作

最近,深度学习方法在SISR任务中取得了显著的改进[20,21]。特别是对于基于 CNN 的模型,各种精心设计的 CNN 架构探索以进一步提高 SISR 性能 [5, 22, 23]。此外,通道注意[24]等注意机制也被引入到SISR任务中[25-27]。最近,视觉transformer引起了极大的关注[28,29],并且已经提出了许多工作来探索基于transformer的架构,以实现SOTA性能[8,30,31]。除了架构外,还做出了一些努力来利用具有更多学习模式的 SISR 任务,例如神经网络修剪 [32]、对比学习 [33, 34] 和知识蒸馏 [35]。Zhao et al.[36]开始对合适的目标函数进行实证检验。Wu等人[33]创新了低级SR任务的对比学习框架,为现有方法的性能提供了额外的提升。这些改进SISR的多样化方法继续推动这一复杂领域的进展。

与以快速增加的参数数量和计算成本实现性能相比,许多轻量级SISR模型则探索减少参数量,特别是对于资源有限的设备[10-13,37-39]。Hui等人提出了一种深度信息蒸馏网络(IDN)[37],并将其扩展到信息多蒸馏网络(IMDN)[38]。Zhang等人[12]通过重新参数化策略提出了一种实时推理SR网络。Li等人[40]通过使用对称架构、压缩模块和减少激活,提出了一种计算复杂度低的超轻量级模型s-LWSR。它们通常利用正常的 3 × 3 卷积并尝试开发精心设计的块来提高性能。

去年,一些工作研究了一些现代基于 CNN 的架构 [15, 16]。Liu 等人。探索了现代基于 CNN 的架构,并引入了更大的内核,这些内核利用了 7 × 7 内核大小。丁等人。进一步将内核大小提高到 31。与正常 3 × 3 卷积相比,较大的内核带来了更大的感受野,显着提高了基于 CNN 的网络的能力。最近,Liu等人[41]利用轻量级SR网络中的大核,利用通道shuffle操作进一步减少可学习特征的数量。

空间移位操作被广泛应用于各种计算机视觉任务中。一些现有的工作,如[18,42,43],已经探索了在高级任务中使用空间移位操作。Wu等人[42]是第一个在卷积中引入移位操作的方法,提出了一种紧凑的CNN模型。随后,[18,43]中提出了自适应稀疏移位操作。此外,Lin等人[17]引入了视频中时间特征聚合的移位操作。在图像超分辨率领域,Zhang等人[44]引入了高效的远程注意网络(ELAN),在其前馈网络中加入了空间移位操作来增强局部特征聚合。然而,我们的工作通过从根本上重塑具有完全 1×1 卷积的网络架构来脱颖而出。与现有的将空间移位操作合并为次要组件的方法不同,我们的方法重新定义了基本的网络架构。这种新颖的设计强调了简单性和效率,对超分辨率成像领域做出了不同的贡献。

在本文中,我们专注于探索轻量级 SISR 任务的有效卷积模型,特别是通过将基于 3×3 卷积的模型转换为完全 1 × 1 卷积模型。然而,1×1 卷积缺乏局部特征聚合,无法有效地学习。为了应对这一挑战,我们提出了一种有效且高效的 SCNet,它采用基本的组移位策略进行局部特征聚合。此外,我们提供了详细的基准比较和消融研究,展示了 SCNet 开发高效 SISR 模型的潜力。我们相信我们的工作将有助于为研究界开发高效的 SISR 模型。

方法

在本节中,我们将详细描述我们提出的 SCNet。我们首先介绍SISR任务的一般框架。随后,我们介绍了 SCNet 中不同组件的实现细节。

整体架构

如图2所示,许多基本的SR-ResBlock堆叠了所提出的SCNet的主要主干,然后是上采样层来重建高分辨率(HR)结果。

给定LR图像
, H/W/C分别为图像的高、宽、通道。首先,使用一个1*1卷积作为浅特征提取器将图像空间映射到潜空间,浅特征提取器表示为
,潜特征表示为
,其中
表示潜空间的通道维度。

主backbone
是由多个基础SC-ResBlock堆叠而成,每个SC-ResBlock中使用移位卷积和11卷积代替传统残差块中[5]的33卷积。这里的主backbone

为输入,提取深度特征
作为输出。

然后,上采样模块使用
重构出HR结果。我们采用SC层、ReLU、1×1卷积和pixel-shuffle操作来构建放大模块
,并使用正常的1×1卷积将放大的特征映射到3个通道的输出中。此外,我们通过双线性插值添加放大的LR图像,超分辨率输出为
。最终,SR网络通过最小化L1损失进行训练。

移位卷积残差块

Spatial-Shift Operation

将移位方向记为


分别表示两个方向,对应的步长记为

。然后我们可以通过结合方向和步幅来获得空间移位步骤
,然后空间移位步骤集可表示为
,其中,n表示特征的分组数,
表示第i个局部像素特征的移位步骤。如果我们想要像正常的3 × 3卷积那样取8个局部像素,则空间移位步骤集可以定义为{(0, 1), (0, −1), (1, 0), (1, 1), (1, −1), (−1, 0), (−1, 1), (−1, −1)}。我们利用
来定位目标像素特征,即使在长距离(仅分配大步幅值)的情况下也可以利用任何地方的像素。此外,我们可以通过设置不同的空间移位步骤来采用不同的局部聚合方案。为了进行公平的比较和评估完全1 × 1卷积SCNet的有效性,我们以正常3 × 3卷积层附近的局部8像素作为默认值。

给定输入特征 f ,我们沿通道维度将其均匀地分成 n 个组,可得到n个更薄的tensor
。 然后每个分离的特征组由给定的步长参数移动,并得到移位特征
。在
中每一个像素特征都包含了其沿着通道维度的邻域特征。空间移位操作的细节如图3所示。空间移位操作的实现如算法1所示。在这里,我们采用基于Pytorch的普通Python实现进行模型训练。给定输入特征 f ,它与超参数移位步骤分离并移位,我们以恒定的零填充零值作为默认值。

Shift-Conv Layer

由于1*1卷积操作作用于会损害模型的单个像素特征上,在这里,我们通过一个简单的空间移位操作显式地探索局部特征聚合,该操作不涉及参数和FLOPs。Shift-Conv 层(简化为 SC 层)由 1×1 卷积层和空间移位操作堆叠,因此 SC 层扩展了具有局部特征聚合的正常 1×1 卷积以及更少的参数。

Shift-Conv Residual Block

如图 4(a) 所示,[5] 中提出的残差块广泛用于 SR 网络。为了公平比较,我们修改并引入SC-ResBlock。如图4(b)所示,SCResBlock包含SC层、ReLU和1 × 1卷积。与 3 × 3 基于卷积的残差块相比,我们的 SC-ResBlock 通过采用 1×1 卷积显着减少了参数数量和计算成本。

基于深度学习的SISR技术取得了重大进展,但与此同时,它们的性能变得越来越饱和。在这项工作中,我们不是探索更复杂的网络架构,而是回顾最小的 CNN 单元,并提出了一个轻量级的 SCNet,它使用完全 1×1 卷积来减少参数和计算成本。空间移位操作在视觉任务中并不新鲜,并已有效地应用于高级视觉任务[17,18,42]。

值得注意的是,这项工作的目标不是提出一种新的操作算法。相反,我们尝试构建一个基准 SR 网络,该网络仅包含最简单的特征聚合(空间移位操作)和最简单的特征提取(1 × 1 卷积)。我们希望这可以为低级图像恢复任务的网络设计提供一些新的启示,特别是对于轻量级架构设计。

实验


结论

在本文中,我们摆脱了设计越来越复杂的网络架构的传统方法,而是选择了一个名为 SCNet 的极简的、全 1 × 1 卷积的网络,使得参数和计算成本显着降低。尽管如此,1×1 卷积也带来了其自身的挑战,主要是没有局部特征聚合,而这是有效建模的一个关键方面。为了克服这个问题,我们将 1×1 卷积扩展为 Shift-Conv 层。通过结合空间移位操作,使得它在不增加计算开销的情况下进行了沿通道维度的局部特征聚合。充分的实验表明,SCNet 可以匹配甚至优于现有的先进方法。此外,深入分析突出了 SCNet 作为稳健的基线架构的通用性和可扩展性。我们希望我们与 SCNet 的工作将点燃研究界的进一步探索,鼓励开发高级本地和远程特征聚合模式。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号