YOLOv11改进策略:AKConv实现任意采样形状和参数数量的卷积核
创作时间:
作者:
@小白创作中心
YOLOv11改进策略:AKConv实现任意采样形状和参数数量的卷积核
引用
1
来源
1.
https://developer.aliyun.com/article/1650897
AKConv是一种创新的卷积核设计,它允许卷积核具有任意数量的参数和任意采样形状,从而在网络开销和性能之间提供更丰富的权衡选择。本文将详细介绍AKConv的原理、优势及其在YOLOv11目标检测网络模型中的应用。
一、本文介绍
本文记录的是利用AKConv优化YOLOv11的目标检测网络模型。标准卷积操作的卷积运算局限于局部窗口,无法捕获其他位置的信息,且采样形状固定,无法适应不同数据集和位置中目标形状的变化。而AKConv旨在为卷积核提供任意数量的参数和任意采样形状,以在网络开销和性能之间提供更丰富的权衡选择。本文利用AKConv模块改进YOLOv11,来提高网络性能。
二、AKConv介绍
AKConv:具有任意采样形状和任意参数数量的卷积核
2.1、AKConv原理
- 定义初始采样位置:
- 通过新的坐标生成算法为任意大小的卷积核定义初始位置。具体来说,先生成规则采样网格,再为剩余采样点创建不规则网格,最后拼接生成整体采样网格。以$3×3$卷积操作为例,其采样网格$R = {(-1,-1),(-1,0),...,(0,1),(1,1)}$,但AKConv针对不规则形状的卷积核,通过算法生成卷积核$P_n$的初始采样坐标。在算法中,将左上角$(0, 0)$点设为采样原点。定义在位置$P_0$的相应卷积运算为$Conv(P_0) = \sum w \times (P_0 + P_n)$,其中$w$表示卷积参数。
- 可变卷积操作:
- 标准卷积采样位置固定,只能提取当前窗口的局部信息,无法捕获其他位置的信息。
- Deformable Conv通过学习偏移来调整初始规则模式的采样网格,以弥补卷积操作的不足,但它和标准卷积不允许卷积核有任意数量的参数,且卷积参数随卷积核大小呈平方增长,对硬件环境不友好。
- AKConv类似于Deformable Conv,先通过卷积操作获得对应核的偏移,其维度为$(B, 2N, H, W)$($N$为卷积核大小),然后通过偏移和原始坐标求和得到修改后的坐标,最后通过插值和重采样获得对应位置的特征。
- 对于不规则卷积核难以提取对应采样位置特征的问题,可采用多种方法解决。例如,在Deformable Conv和RFAConv中,通过在空间维度堆叠$3×3$卷积特征,然后用步长为3的卷积操作提取特征,但此方法针对正方形采样形状。因此,可以将特征按行或列堆叠,使用列卷积或行卷积来提取对应不规则采样形状的特征;也可以将特征转换为四维$(C, N, H, W)$,然后用步长和卷积大小为$(N,1,1)$的Conv3d提取特征;还可以将特征在通道维度堆叠为$(CN, H, W)$,然后用(1×1)卷积降维为$(C, H, W)$。在AKConv中,按照上述方法对特征进行重塑并使用相应卷积操作即可提取对应特征。最终,AKConv通过不规则卷积完成特征提取过程,能根据偏移灵活调整样本形状,为卷积采样形状带来更多探索选项。
- 扩展AKConv:
- AKConv可以通过重新采样初始坐标呈现多种变化,即使不使用Deformable Conv中的偏移思想,也能实现多种卷积核形状。
- 根据数据集目标形状的变化,设计对应采样形状的卷积操作,通过设计特定形状的初始采样形状来实现。例如,为长管状结构分割任务设计具有相应形状的采样坐标,但形状选择仅针对长管状结构。
- AKConv真正实现了卷积核操作具有任意形状和数量的过程,能够使卷积核呈现多种形状。而Deformable Conv旨在弥补常规卷积的不足,DSConv针对特定对象形状设计,它们都没有探索任意大小和形状的卷积。AKConv通过Offset使卷积操作能高效提取不规则样本形状的特征,允许卷积有任意数量的卷积参数和多种形状。
2.2、AKConv优势
- 提高检测性能:在COCO2017、VOC 7 + 12和VisDrone - DET2021等数据集的目标检测实验中,AKConv显著提高了YOLOv5等模型的目标检测性能。例如,在COCO2017数据集上,当AKConv大小为5时,不仅使模型所需的参数和计算开销减少,还显著提高了YOLOv5n的检测精度,$AP{50}$、$AP{75}$和$AP$均提高了三个百分点,且对大物体的检测精度提升更为明显。
- 灵活的参数选择:与标准卷积和Deformable Conv相比,AKConv允许卷积参数数量呈线性增减,有利于硬件环境,可作为轻量级模型的替代选择,减少模型参数和计算开销。同时,在大内核且资源充足的情况下,它有更多选项来提高网络性能。
- 丰富的选择:与Deformable Conv不同,AKConv为网络提供了更丰富的选择,它可以使用规则和不规则卷积操作。当AKConv大小设置为(K)的平方时,它可以成为Deformable Conv,但Deformable Conv没有探索不规则卷积核大小,而AKConv可以实现参数为5和11等的卷积操作。
论文:https://arxiv.org/pdf/2311.11587v2
源码:https://github.com/CV-ZhangXin/AKConv
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:
热门推荐
机油过量会对汽车产生何种影响?这种影响如何进行判断和处理?
机油在汽车维护中的重要性与保养知识分享
网络教育学历:灵活学习的新方式与职场竞争力提升之路
不同VLAN之间相互通信的两种方式(单臂路由、三层交换)
3.5 VLAN间路由:三层交换机
多地开建!“好房子”长啥样?
鬼谷子鸳鸯戏水命格解析:揭秘其深层含义与影响
新能源汽车动力电池结构及成组技术综述
历史上真实的唐僧取经之路
睡前八段锦:助你睡好觉的养生秘诀
有色板块的市场趋势如何分析?这种分析对投资有何指导意义?
建筑工程造价成本控制策略
左旋肉碱的功能、来源及在疾病治疗中的应用
Win11无法下载任何软件的原因及解决方法
如何看待股票的市场投资情绪波动?情绪波动对股价的影响有多大?
探索优质咖啡混合物:从非洲浓缩咖啡到苹果汁路易波士茶
南非国宝茶、路易博士茶(Rooibos)不是茶!有咖啡因吗?还具有哪些功效?
医保生育保险怎么取钱?办理条件及流程详解
书单丨读完这5本心理学,我的人际关系像开了挂!
同样的马桶,虹吸式和直冲式,哪个用着更省心?一文解答清楚
开车腰疼的5个缓解方法
怎么积累绩效管理工作经验?
附子的副作用有哪些
如何保持白衣服的洁白并有效去除污渍?
美国本科转学流程详解
老年狗应该怎么照顾?(老年狗健康护理指南)
胆囊息肉大了有什么危害和后果
高胆固醇人群的“救星”,降胆固醇秘籍大公开
鼻子不通气、频繁打喷嚏,注意你可能患上了鼻炎
如何管理销售团队回款率