资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

深度学习中的特征融合技术综述：从早融合到晚融合

创作时间:

作者:

@小白创作中心

深度学习中的特征融合技术综述：从早融合到晚融合

引用

CSDN

https://blog.csdn.net/qq_43703185/article/details/108201970

在深度学习领域，特征融合是提高图像分割和目标检测性能的关键技术。本文将探讨高低层特征融合的两种主要策略：早融合（Early fusion）和晚融合（Late fusion），并介绍多种具体的实现方法，如Concat、Add、FPN、SSD等。此外，本文还将讨论DCA特征融合方法、DenseNet在SSD中的应用、YOLOv3的改进以及FSSD等具体技术细节。

早融合（Early fusion）与晚融合（Late fusion）

在很多工作中，融合不同尺度的特征是提高分割性能的一个重要手段。低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。如何将两者高效融合，取其长处，弃之糟泊，是改善分割模型的关键。

很多工作通过融合多层来提升检测和分割的性能，按照融合与预测的先后顺序，可以分为早融合（Early fusion）和晚融合（Late fusion）。

早融合（Early fusion）

早融合（Early fusion）是指先融合多层的特征，然后在融合后的特征上训练预测器（只在完全融合之后，才统一进行检测）。这类方法也被称为skip connection，即采用concat、add操作。

Concat：直接将两个特征进行连接。两个输入特征x和y的维数若为p和q，输出特征z的维数为p+q。
Add：将这两个特征向量组合成复向量，对于输入特征x和y，z = x + iy，其中i是虚数单位。

晚融合（Late fusion）

晚融合（Late fusion）是指通过结合不同层的检测结果改进检测性能（尚未完成最终的融合之前，在部分融合的层上就开始进行检测，会有多层的检测，最终将多个检测结果进行融合）。这一类研究思路的代表有两种：

特征不融合，多尺度的特征分别进行预测，然后对预测结果进行综合，如Single Shot MultiBox Detector (SSD) , Multi-scale CNN(MS-CNN)
特征进行金字塔融合，融合后进行预测，如Feature Pyramid Network(FPN)等。

特征融合的具体方法

DCA特征融合方法

特征融合的目的，是把从图像中提取的特征，合并成一个比输入特征更具有判别能力的特征。如何正确融合特征是一个难题。两个经典的特征融合方法：

Concat：系列特征融合，直接将两个特征进行连接。两个输入特征x和y的维数若为p和q，输出特征z的维数为p+q。
Add：并行策略，将这两个特征向量组合成复向量，对于输入特征x和y，z = x + iy，其中i是虚数单位。

孙等人引入典型相关分析（Canonical Correlation Analysis, CCA）来融合特征。基于CCA的融合方法使用两个输入特征间的相关关系，计算两种变换，变换后的特征比输入的两个特征集有更高的相关性。然而，CCA的主要不足在于忽略了数据集中类结构间的关系。最近，研究者引入了DCA（Discriminative Canonical Correlation Analysis），它最大化两个特征集中对应特征的相关关系，同时最大化不同类之间的差异。

DenseNet在SSD中的应用

在SSD目标检测算法中，使用DenseNet代替原始SSD结构中的VGG，以提高目标检测准确性。改进后的SSD网络对小物体比较敏感，能够对小物体产生很好的拟合。SSD中小物体检测的弱点可以通过所提出的模型来解决，并且对于具有独特上下文的类来说，性能更好。

FPN（Feature Pyramid Networks）

特征金字塔是识别不同尺度的目标时常用的结构，但是特征金字塔需要较大的计算量和显存，所以最近研发的一些探测器都不再使用这种结构。作者开发出的一种构建特征金字塔的新方法，可以减少额外的对计算量和显存的消耗。使用FPN作为backbone，Faster RCNN的精度进一步提升（因为提取的特征更加丰富），速度为6fps on a GPU。最近在coco和imagenet上取得靠前名次的网络都采用了多尺度的方法。

YOLOv3的改进

YOLOv3采用（类似FPN）上采样（Upsample）和融合做法，融合了3个尺度（1313、2626和5252），在多个尺度的融合特征图上分别独立做检测，最终对于小目标的检测效果提升明显。有些算法采用多尺度特征融合的方式，但是一般是采用融合后的单一特征图做预测，比如YOLOv2，FPN不一样的地方在于其预测是在不同特征层进行的。

FSSD：Feature Fusion Single Shot Multibox Detector

FSSD是以SSD为基底进行“改造”的一篇文章。SSD是从网络的不同层中抽取不同scale的feature直接做predict，所以没有充分融合不同scale的feature。后续有提出DSSD，RSSD等改进方法，但是因为模型的complexity导致速度变慢很多。本文借鉴了FPN的思想，重构了一组pyramid feature map，使得算法的精度有了明显的提升，速度也没有太降。

利用多层卷积神经网络（CNN）特征的互补优势进行图像检索

高层特征用于度量语义相似度，低层特征用于度量细粒度相似度。给出一个简单易懂的例子，当查询图像是一个建筑物时，高层相似性捕捉到的图像包含一个建筑物，而低层相似性则捕获同一个从属同类实体的建筑物。显然，低层和高层特征的互补性可以提高查询图像与其他候选图像之间的相似性度量。一些现有的方法试图利用多尺度无序汇集来进行CNN激活。例如，CNN特征分别从不同层次提取和编码，然后将这些不同层次的聚合特征进行连接以测量图像。但直接拼接不能充分利用高层和低层特征的互补性。高层特征可以搜索具有相似语义的候选图像的集合作为查询图像，但是它不足以描述细粒度的细节。因此，高层相似性会削弱低层相似性的有效性，当最近邻居之间的细粒度差别被区分时，语义相似。

在本文中，我们建议以一种简单而有效的方式利用不同层次的CNN特征的更多互补优势。我们的方法试图突出低层相似性的有效性，当查询图像和最近的邻居之间的细粒度的相似性与相似的语义。换句话说，低层特征用于细化高层特征的排序结果，而不是直接连接多个层。如图2所示，高层特征不足以描述细节信息，而低层特征则来自背景混乱和语义歧义。以直接拼接的方式，由于高层相似度的影响，低层相似度在区分细粒度差异方面不起重要作用。使用映射函数，我们的方法利用低层特征来测量查询图像与具有相同语义的最近邻居之间的细粒度相似性。在实验中，我们证明了我们的方法比单层功能，多层连接以及其他基于手工特征的方法更好。

提升特征融合效率的五种方法

这篇文章着重研究语义分割网络中高低层特征融合的效率问题。本文发现，当前语义分割方法直接融合高、低特征并不奏效，继而提出新架构 ExFuse. 本文工作主要聚焦于 U-Net 分割架构的特征融合问题，并选择当前最优的 U-Net 架构之一——全局卷积网络（Global Convolutional Network/GCN）——作为主要的 backbone 分割架构.

这篇文章从两个大的方向上提出了改善思路，即：

（1）增加低层特征的语义
（2）在高层特征中增加更多空间信息。

其中包括5个改善的细节，在下面一一介绍。

（1）Direction 1: Introducing More Semantic Information into Low-level Features
这篇文章中，作者为了增加低层特征的语义信息做了三点改进：