深度学习中有哪些魔改的特征融合方法?
深度学习中有哪些魔改的特征融合方法?
特征融合是深度学习中的重要技术,特别是在计算机视觉任务中。本文将介绍几种常见的特征融合方法,并重点介绍TPAMI 2024最新发表的FreqFusion方法,该方法在多个视觉任务中都取得了显著的性能提升。
常见的特征融合方法
1. 基于注意力机制的特征融合
SE-Net(Squeeze-and-Excitation Networks):通过全局平均池化将每个通道的二维特征图压缩为一个实数,然后通过两个全连接层和一个激活函数学习每个通道的权重,最后将学习到的权重与原始特征图相乘,实现对不同通道特征的自适应加权融合。
DANet(Dual Attention Network):包含位置注意力模块和通道注意力模块。位置注意力模块用于捕捉空间维度上的依赖关系,通道注意力模块则与 SE-Net 类似,用于学习通道维度上的重要性权重,对通道特征进行加权融合。
2. 基于密集连接的特征融合
- DenseNet(Densely Connected Convolutional Networks):每一层都直接连接到其他所有层,使得信息传递更加直接和高效。每一层的输入不仅包括原始的输入,还包括前面所有层的输出,这样可以充分利用不同层的特征信息,实现特征的复用和融合。
3. 基于全局上下文的特征融合
- GCNet(Global Context Network):使用全局平均池化的方法来捕获全局上下文信息,得到一个全局上下文向量。然后,将这个全局上下文向量与局部特征进行融合,使得局部特征能够结合全局信息,从而更好地理解图像的整体语义。
4. 基于空洞卷积的特征融合
- ASPP(Atrous Spatial Pyramid Pooling):在不同的空洞率下进行卷积操作,从而获取不同尺度的特征。空洞卷积可以在不增加参数数量和计算量的情况下,扩大卷积核的感受野,使得网络能够捕捉到更广泛的上下文信息。
5. 基于跨模态的特征融合
多模态特征融合:在处理图像、文本、音频等多模态数据时,需要将不同模态的特征进行融合。例如,在图像描述生成任务中,将图像的视觉特征和文本的语义特征进行融合。
模态注意力融合:为不同模态的特征学习一个注意力权重,根据权重对特征进行加权融合。
TPAMI 2024:Frequency-aware Feature Fusion
研究背景
现有的语义分割、目标检测等高层密集识别模型中,往往需要将低分辨高层特征与高分辨率低层特征融合,例如FPN。虽然简单,但这样粗糙的特征融合方式显然不够优秀,一方面特征本身对同一类目标的一致性不够高,会出现融合特征值在对象内部快速变化,导致类别内不一致性,另一方面简单的上采样会导致边界模糊,以及融合特征的边界模糊,缺乏精确的高频细节。
方法介绍
FreqFusion提出了一种名为Frequency-Aware Feature Fusion(FreqFusion)的方法。FreqFusion包括:
自适应低通滤波器(ALPF)生成器:预测空间变化的低通滤波器,以在上采样过程中减少对象内部的高频成分,降低类别内不一致性。
偏移生成器:通过重采样,用更一致的特征替换大的不一致特征,使得同一类目标特征更稳定一致。
自适应高通滤波器(AHPF)生成器:增强在下采样过程中丢失的高频细节边界信息。
实验效果
语义分割:轻量化语义分割SegNeXt,在ADE20K上+2.4 mIoU;Mask2Former在ADE20K上提升+1.4 mIoU;即便是重型的Swin-Large,也能提升+0.7 mIoU。
目标检测:Faster RCNN +1.9 AP。
实例分割:Mask R-CNN,+1.7 box AP,+1.3 mask AP。
全景分割:PanopticFCN,+2.5 PQ。
使用方法
简单来说,示例如下:
m = FreqFusion(hr_channels=64, lr_channels=64)
hr_feat = torch.rand(1, 64, 32, 32)
lr_feat = torch.rand(1, 64, 16, 16)
_, hr_feat, lr_feat = m(hr_feat=hr_feat, lr_feat=lr_feat)
集成建议
将普通上采样替换FreqFusion即可。FreqFusion的简洁代码可在此处获得。通过利用它们的频率特性,FreqFusion能够增强低分辨率和高分辨率特征的质量(分别称为lr_feat和hr_feat,假设的大小hr_feat是的两倍lr_feat)。用法非常简单,只要模型中存在这种形式的不同分辨率特征相融合的情况就可以使用FreqFusion对模型进行提升涨点。