YOLOv11改进策略:AKConv实现任意采样形状和参数数量的卷积核
创作时间:
作者:
@小白创作中心
YOLOv11改进策略:AKConv实现任意采样形状和参数数量的卷积核
引用
1
来源
1.
https://developer.aliyun.com/article/1650897
AKConv是一种创新的卷积核设计,它允许卷积核具有任意数量的参数和任意采样形状,从而在网络开销和性能之间提供更丰富的权衡选择。本文将详细介绍AKConv的原理、优势及其在YOLOv11目标检测网络模型中的应用。
一、本文介绍
本文记录的是利用AKConv优化YOLOv11的目标检测网络模型。标准卷积操作的卷积运算局限于局部窗口,无法捕获其他位置的信息,且采样形状固定,无法适应不同数据集和位置中目标形状的变化。而AKConv旨在为卷积核提供任意数量的参数和任意采样形状,以在网络开销和性能之间提供更丰富的权衡选择。本文利用AKConv模块改进YOLOv11,来提高网络性能。
二、AKConv介绍
AKConv:具有任意采样形状和任意参数数量的卷积核
2.1、AKConv原理
- 定义初始采样位置:
- 通过新的坐标生成算法为任意大小的卷积核定义初始位置。具体来说,先生成规则采样网格,再为剩余采样点创建不规则网格,最后拼接生成整体采样网格。以$3×3$卷积操作为例,其采样网格$R = {(-1,-1),(-1,0),...,(0,1),(1,1)}$,但AKConv针对不规则形状的卷积核,通过算法生成卷积核$P_n$的初始采样坐标。在算法中,将左上角$(0, 0)$点设为采样原点。定义在位置$P_0$的相应卷积运算为$Conv(P_0) = \sum w \times (P_0 + P_n)$,其中$w$表示卷积参数。
- 可变卷积操作:
- 标准卷积采样位置固定,只能提取当前窗口的局部信息,无法捕获其他位置的信息。
- Deformable Conv通过学习偏移来调整初始规则模式的采样网格,以弥补卷积操作的不足,但它和标准卷积不允许卷积核有任意数量的参数,且卷积参数随卷积核大小呈平方增长,对硬件环境不友好。
- AKConv类似于Deformable Conv,先通过卷积操作获得对应核的偏移,其维度为$(B, 2N, H, W)$($N$为卷积核大小),然后通过偏移和原始坐标求和得到修改后的坐标,最后通过插值和重采样获得对应位置的特征。
- 对于不规则卷积核难以提取对应采样位置特征的问题,可采用多种方法解决。例如,在Deformable Conv和RFAConv中,通过在空间维度堆叠$3×3$卷积特征,然后用步长为3的卷积操作提取特征,但此方法针对正方形采样形状。因此,可以将特征按行或列堆叠,使用列卷积或行卷积来提取对应不规则采样形状的特征;也可以将特征转换为四维$(C, N, H, W)$,然后用步长和卷积大小为$(N,1,1)$的Conv3d提取特征;还可以将特征在通道维度堆叠为$(CN, H, W)$,然后用(1×1)卷积降维为$(C, H, W)$。在AKConv中,按照上述方法对特征进行重塑并使用相应卷积操作即可提取对应特征。最终,AKConv通过不规则卷积完成特征提取过程,能根据偏移灵活调整样本形状,为卷积采样形状带来更多探索选项。
- 扩展AKConv:
- AKConv可以通过重新采样初始坐标呈现多种变化,即使不使用Deformable Conv中的偏移思想,也能实现多种卷积核形状。
- 根据数据集目标形状的变化,设计对应采样形状的卷积操作,通过设计特定形状的初始采样形状来实现。例如,为长管状结构分割任务设计具有相应形状的采样坐标,但形状选择仅针对长管状结构。
- AKConv真正实现了卷积核操作具有任意形状和数量的过程,能够使卷积核呈现多种形状。而Deformable Conv旨在弥补常规卷积的不足,DSConv针对特定对象形状设计,它们都没有探索任意大小和形状的卷积。AKConv通过Offset使卷积操作能高效提取不规则样本形状的特征,允许卷积有任意数量的卷积参数和多种形状。
2.2、AKConv优势
- 提高检测性能:在COCO2017、VOC 7 + 12和VisDrone - DET2021等数据集的目标检测实验中,AKConv显著提高了YOLOv5等模型的目标检测性能。例如,在COCO2017数据集上,当AKConv大小为5时,不仅使模型所需的参数和计算开销减少,还显著提高了YOLOv5n的检测精度,$AP{50}$、$AP{75}$和$AP$均提高了三个百分点,且对大物体的检测精度提升更为明显。
- 灵活的参数选择:与标准卷积和Deformable Conv相比,AKConv允许卷积参数数量呈线性增减,有利于硬件环境,可作为轻量级模型的替代选择,减少模型参数和计算开销。同时,在大内核且资源充足的情况下,它有更多选项来提高网络性能。
- 丰富的选择:与Deformable Conv不同,AKConv为网络提供了更丰富的选择,它可以使用规则和不规则卷积操作。当AKConv大小设置为(K)的平方时,它可以成为Deformable Conv,但Deformable Conv没有探索不规则卷积核大小,而AKConv可以实现参数为5和11等的卷积操作。
论文:https://arxiv.org/pdf/2311.11587v2
源码:https://github.com/CV-ZhangXin/AKConv
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:
热门推荐
螺蛳粉为什么臭?这个臭的来历可有讲究,别吃错了
鸽子汤小孩子能吃吗 鸽子汤的适宜年龄
Windows 11:Docker Desktop 安装和配置指南
古代算命用的道具大盘点:揭秘算命先生手中的神秘工具
南红玛瑙真假鉴别全攻略:从颜色纹理到声音硬度的全方位解析
跨境电商必备:如何精准选择适合自己的跨境物流公司
风味茄子:外酥里嫩的家常美味
秒懂!掌握立方体体积计算方法,轻松解决空间问题!
从“仓天乃死”到“天下太平”(上)
孤立森林(Isolation Forest)算法剖析
与传统热水器不同!空气能热水器工作原理独特在哪?
公司不注销影响个人征信吗?如何查询公司注销状态?
中国十大传世名画:穿越千年的艺术瑰宝
半月板损伤吃药能好吗
如何正确清洁种植牙?种植牙的清洗方法详解
科学预防,共筑健康——秋冬季常见传染病防控知识宣传
符号代数或“抽象的抽象”
人工智能场景下的网络负载均衡技术
黄平县人民法院:“四举措”推动未成年人法治教育活动走深走实
出院前必问的三个问题,关乎康复和复发!
虚拟机如何检查网络设置
牛头人历史来源 (牛头人历史来源是什么)
深入解析AI大模型算力与GPU的工作原理
钢结构厂房彩钢瓦翻新解决方案:材料该如何搭配选择?
普通人,如何用DeepSeek搞钱?
十大汽车托运公司:如何为爱车选择靠谱的“搬家公司”?
在人际交流中,某些人会「故意否定」,这是种什么心理?
要备孕了,该如何运动?
越南突然宣布:将汉语纳入必修课,再次学习中文,究竟有何目的?
什么是八字印绶格?八字印绶格局详解