YOLOv11改进策略：AFPN渐进式自适应特征金字塔详解

创作时间:

作者:

@小白创作中心

YOLOv11改进策略：AFPN渐进式自适应特征金字塔详解

引用

来源

https://developer.aliyun.com/article/1651312

本文主要介绍了AFPN（渐进式自适应特征金字塔）在YOLOv11中的改进策略。通过渐近式融合及自适应空间融合操作，AFPN能够有效避免非相邻层级间因语义差距过大导致的信息丢失或降级问题，确保在多尺度特征融合过程中既能保留高层语义信息，又能融入低层细节特征。

AFPN介绍

2.1 设计出发点

在目标检测中，物体尺寸不确定，单尺度特征提取会丢失信息，因此常用特征金字塔架构。但传统如FPN等方法在融合非相邻层特征时，高层特征语义信息或低层特征细节信息会在传播和交互中丢失或降级。

例如，高层特征需经多层中间尺度传播和交互后与底层低层级特征融合，过程中语义信息易受损，PAFPN的自底向上路径也会使低层级特征细节丢失。此外，像GraphFPN虽解决非相邻层直接交互问题，但引入的图神经网络增加大量参数和计算量。

为克服这些局限，AFPN应运而生。

2.2 结构原理

多层特征提取

遵循Faster R-CNN框架，从骨干网络各特征层提取最后一层特征，得到不同尺度的特征集${C{2}, C{3}, C{4}, C{5}}$。先输入$C{2}$和$C{3}$到特征金字塔网络，接着加入$C{4}$，最后加入$C{5}$进行融合，产生多尺度特征集${P{2}, P{3}, P{4}, P{5}}$。

在Faster R-CNN框架实验中，对$P{5}$进行特定卷积操作生成$P{6}$，最终得到特征集$P{2}$，$P{3}$，$(P{4}$，$P{5}$，$P_{6}$，其特征步长分别为 4、8、16、32、64 像素。
YOLO则仅输入$C{3}$，$C{4}$，$C{5}$到特征金字塔网络，生成${P{3}, P{4}, P{5}}$。
渐近式架构：在骨干网络自底向上提取特征过程中，AFPN渐近地整合低、高和顶层特征。先融合低层级特征，再融合深层特征，最后整合最顶层特征。因为非相邻层级特征语义差距大，直接融合效果差，AFPN的渐近融合方式可缩小不同层级特征语义差距。

例如$C{2}$和$C{3}$融合减少语义差距后，由于$C{3}$和$C{4}$相邻，$C{2}$和$C{4}$语义差距也随之减小。在融合前，利用 1×1 卷积和双线性插值进行上采样，根据下采样率用不同卷积核和步长下采样。融合后用四个类似 ResNet 的残差单元继续学习特征，每个残差单元含两个 3×3 卷积。

自适应空间融合：利用ASFF在多层特征融合时为不同层级特征分配不同空间权重，增强关键层级重要性并缓解不同对象矛盾信息影响。

以融合三个层级特征为例，设$x{ij}^{n→l}$表示从层级$n$到层级$l$位置$(i, j)$的特征向量，融合后的特征向量$y{ij}^{l}$由$x{ij}^{1→l}$，$x{ij}^{2→l}$和$x{ij}^{3→l}$线性组合得到，且对应权重$\alpha{ij}^{l}$，$\beta{ij}^{l}$和$\gamma{ij}^{l}$满足$\alpha{ij}^{l}+\beta{ij}^{l}+\gamma_{ij}^{l}=1$。因 AFPN 各阶段融合特征数量不同，会设置特定数量自适应空间融合模块。