问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

MB-TaylorFormer论文解读

创作时间:
作者:
@小白创作中心

MB-TaylorFormer论文解读

引用
CSDN
1.
https://blog.csdn.net/qq_45998729/article/details/145058446

一、摘要

Transformer 网络因全局感受野和adaptability to input逐渐取代 CNN,但 softmax-attention 的二次复杂度限制其在高分辨率图像去雾中的应用。为此,提出了一种名为MB-TaylorFormer的新型 Transformer 变体,通过泰勒展开近似 softmax-attention,实现线性复杂度,并结合多尺度注意力模块纠正误差。此外,引入多分支架构和多尺度补丁嵌入,以可变形卷积嵌入不同感受野和语义特征。在多个去雾基准上,MB-TaylorFormer 展现出领先性能和较低计算成本。

二、背景

图像去雾任务中的直接应用面临以下挑战:
1)Transformer 的计算复杂度随特征图分辨率呈二次增长,限制了其在像素级任务中的适用性;2)现有视觉 Transformer 通常通过固定卷积核生成固定尺度的特征标记,缺乏灵活性。为了解决这些问题,作者提出了基于泰勒展开的 Transformer 变体TaylorFormer和多分支结构MB-TaylorFormer
TaylorFormer通过对 softmax 进行泰勒展开实现线性计算复杂度,同时保持全局建模能力,并在像素级交互中提供更精细的特征处理。为修正泰勒展开的误差,加入了多尺度注意力细化模块(MSAR),通过卷积提取局部信息,生成与多头自注意力对应的缩放因子,提高性能的同时计算开销极低。
针对特征标记的固定尺度问题,MB-TaylorFormer采用多分支编码器-解码器架构,结合多尺度补丁嵌入模块,通过变形卷积生成具有多尺度、多维度特征的标记,并利用深度可分离方法减少计算复杂度。多分支结构可以同时处理不同尺度的特征标记,捕获更强大的特征。
实验结果表明,MB-TaylorFormer 在多种合成和真实去雾数据集上实现了参数量和计算量较低的同时,达到了最先进(SOTA)的性能。


图 :MB-TaylorFormer 的架构
(a)MB-TaylorFormer采用了基于多尺度补丁嵌入的多分支分层设计。
(b)多尺度补丁嵌入实现从粗略到精细的特征嵌入。
(c)TaylorFormer提供线性计算复杂度的注意力机制。
(d)MSAR 模块用于补偿泰勒展开中的误差。

三、MB-TaylorFormer

MB-TaylorFormer 是一种高效轻量级的基于 Transformer 的去雾网络,旨在降低计算复杂度。通过对 Softmax-attention 的泰勒展开,满足结合律并结合类似 Restormer 的 U-net 结构。此外,为了弥补泰勒展开误差的影响,提出了 MSAR 模块。核心模块包括多尺度 patch 嵌入(Multi-scale Patch Embedding)、泰勒展开自注意力(Taylor Expanded Self-Attention)以及 MSAR 模块。

3.1 多分支主干网络

给定输入雾图
,网络的主要架构是一个四阶段的编码-解码网络:

  • 初始通过卷积提取浅层特征,生成
  • 每个阶段包含一个残差块,该块由多尺度 patch 嵌入和多分支 Transformer 块组成:
  • 多尺度 patch 嵌入:生成多尺度的视觉 token。
  • 多分支 Transformer 块:每个分支包含多个 Transformer 编码器。
  • 使用 SKFF 模块融合分支生成的特征。
  • 采样操作:采用像素重排列(pixel-unshuffle 和 pixel-shuffle)进行下采样和上采样。
  • 跳跃连接:结合编码器和解码器的信息,除第一阶段外使用 1×1卷积降维。
  • 在编码-解码后添加残差块,恢复结构和纹理细节。
  • 最终用 3×3 卷积生成残差图
    ,并通过 I′=I+R 输出去雾后的图像。
    为进一步压缩计算量,模型采用深度可分离卷积(Depthwise Separable Convolutions, DSDCN)。

3.2 多尺度 Patch 嵌入

针对固定卷积核的问题,提出了一种新的多尺度 patch 嵌入,具有以下特点:

  • 多种感受野尺寸:使用不同尺度的可变形卷积核(DCN)并行生成粗细粒度的视觉 token。
  • 多层语义信息:堆叠小核的可变形卷积层,提升深度和语义信息。
  • 灵活的感受野形状:通过限制偏移范围(如 [−3,3]),实现对局部区域的关注。
    通过引入 DSDCN(深度可分离与可变形卷积),显著降低了计算复杂度和参数量:
  • DSDCN 的计算复杂度和参数量分别比标准 DCN 更低。
    感受野范围的限制实验表明,合理地设置 token 的感受野可提升模型性能。

DSDCN 的结构说明

DSDCN 的流程可以分为两个主要部分:偏移生成和特征提取。

偏移生成

  • 首先,使用标准的 K×K深度卷积(Depthwise Convolution)提取空间特征。
  • 然后,通过**逐点卷积(Pointwise Convolution, 1×1 卷积)**生成每个位置的偏移量。
  • 偏移量用于灵活调整卷积核的采样位置,以增强局部感受野的适应性。
  • 特征提取
  • 利用 K×K 的深度可变形卷积(Depthwise Deformable Convolution, DCN)进行特征提取。DCN 使用偏移量调整卷积核的位置,从而适应不同的局部区域特性。
  • 最后,通过一个逐点卷积整合深度卷积生成的特征,输出结果。

3.3 泰勒展开的多头自注意力(T-MSA)

传统的自注意力(MSA)计算复杂度为
,针对这一高计算成本问题,作者引入泰勒展开方法,将复杂度降至 O(hw)。
核心方法:

将 Softmax 替换为泰勒公式的一阶展开:
其中,Qi和 Kj是经过归一化的向量。

通过矩阵乘法的结合律进行优化,显著减少计算复杂度。

使用深度卷积生成 Q、K、V,强调局部上下文,并逐层增加多头结构的数量。
实验结果表明,在处理高分辨率图像时,T-MSA 能接近 MSA 的性能,同时大幅降低计算成本。

3.4 多尺度注意力优化

在多尺度注意力优化(MSAR)模块中,为了解决 T-MSA(Taylor-Multi-Scale Attention)中的近似误差,采用了局部信息学习来校正误差并提升高频信息处理能力。具体来说,通过将多头注意力机制中的 Q 和 K 矩阵重塑为 Qm,
,拼接得到张量 T∈
,然后通过多尺度分组卷积生成门控张量 G,最终通过以下公式得到优化后的输出:
其中
,WP 和 WiQ,WiK,WiV为投影矩阵

论文地址:2308.14036
官方代码地址: FVL2020/ICCV-2023-MB-TaylorFormer

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号