特征融合算法综述:从早融合到注意力引导融合
特征融合算法综述:从早融合到注意力引导融合
特征融合是机器学习和计算机视觉领域的重要技术,广泛应用于目标检测、图像分割等任务中。本文将介绍三种主要的特征融合方法:早融合、晚融合以及注意力引导特征融合,并详细描述每种方法的原理、代表性的模型及其特点。
1. 早融合(Early fusion)
早融合是在特征层面上进行融合,即将不同特征进行连接后输入到一个模型中进行训练。这类方法也被称为skip connection,常用的融合操作包括concat和add。
1.1 DCA(Dynamic Channel Attention)特征融合
DCA通过按顺序捕获多尺度编码器特征之间的通道和空间依赖关系来解决编码器特征和解码器特征之间的语义差距。具体来说,DCA模块首先通过通道交叉注意(CCA)提取全局通道依赖关系,然后通过空间交叉注意(SCA)模块捕获跨空间令牌的空间依赖性,最后将这些细粒度的编码器特征上采样并连接到相应的解码器部分。
1.2 Inside-Outside Net(ION)
ION通过添加两个RNN层(修改后的IRNN)实现上下文特征提取。此外,ION还通过连接不同Scale下的Feature Map,实现多尺度特征融合。具体来说,ION网络的每个循环层有四个向四个方向移动的独立的IRNN,偏差可以以同样的方式共享,并合并到1x1 conv层。IRNN层现在只需要在每一步应用循环矩阵和非线性。
1.3 FSSD
FSSD是SSD的改进版,算是SSD+FPN思想的结合。具体来说,FSSD将各个level的feature concat,然后从fusion feature上生成feature pyramid。
2. 晚(后)融合
晚融合指的是在预测分数上进行融合,做法就是训练多个模型,每个模型都会有一个预测分数,我们对所有模型的结果进行融合,得到最后的预测结果。
2.1 SSD(Single Shot MultiBox Detector)
SSD的主要贡献包括:提出了新的物体检测方法,比原先最快的YOLO方法还要快,还要精确;在不同层次的feature maps上预测object和box offsets;在特征图的每个位置使用小的卷积核预测一系列bounding boxes的box offsets等。
2.2 MFF-SSD模型
MFF-SSD模型在原SSD网络结构的基础上对SSD的后4层进行反卷积,得到4个反卷积模块,利用高层网络和低层网络的优势,将高层网络和低层网络进行多尺度融合,然后将特征融合模块与SSD网络的7~11层同时输入到检测模块进行检测。
2.3 Multi-scale CNN(MS-CNN)
MS-CNN针对多尺度问题,设计了一个去卷积层来增加特征图的分辨率,使得小目标依然可以被检测出来。此外,MS-CNN还使用特征的上采样代替输入图像的上采样步骤,大大减少内存占用,提高速度。
2.4 Feature Pyramid Network(FPN)
FPN是一种自顶向下的特征融合方法,可以在多个不同尺度的融合特征上进行预测,实现检测精度的最大化。FPN使用不同分辨率的特征图感知不同大小的物体,并通过连续上采样和跨层融合机制使输出特征兼具底层视觉信息和高层语义信息。
2.5 YOLOv3
YOLOv3的模型比之前复杂不少,在速度和精度上的提升也非常明显。YOLO v3的模型比之前复杂不少,在速度和精度上的提升也非常明显(如图1-1),同时可以通过改变模型的结构来权衡速度与精度。
3. 注意力引导特征融合
1. Attentional Feature Fusion(AFF)
AFF通过一个注意力图(attention map)来加权融合这些特征。注意力图是由一个自注意力机制(self-attention mechanism)计算得到的,它可以捕捉到不同特征之间的依赖关系,并根据这些关系对特征进行加权融合。
2. Iterative Attentional Feature Fusion(iAFF)
iAFF在AFF的基础上,将初始特征融合也采用注意力融合的机制,使用另一个attention模块来融合输入的特征。