CEH-YOLO:基于 YOLO 的水下目标检测复合增强模型
CEH-YOLO:基于 YOLO 的水下目标检测复合增强模型
本文介绍了一种基于YOLO的水下目标检测复合增强模型(CEH-YOLO)。该模型通过引入高阶可变形注意力(HDA)模块、增强型空间金字塔池化快速(ESPPF)模块和复合检测(CD)模块,有效解决了水下图像目标检测的挑战。实验结果表明,该模型在DUO和UTDAC2020数据集上的平均精度分别达到88.4%和87.7%,检测速度高达156帧/秒,模型大小仅为4.4兆字节,计算复杂度适中,非常适合集成到水下检测系统中。
前景概要
水下记录与处理系统的进步,凸显了对专门用于精确检测和追踪图像中微小水下物体的自动化方法的需求。然而,水下光学图像具有独特的特性,包括对比度低、颜色变化大以及存在微小物体,这些都带来了重大挑战。本文提出了CEH-YOLO,它是YOLOv8的一个变体,融入了高阶可变形注意力(HDA)模块,通过对模型内关键区域进行优先级排序,来增强空间特征提取与交互能力。此外,还集成了增强型空间金字塔池化快速(ESPPF)模块,以强化对物体属性(如颜色和纹理)的提取,这在存在微小或重叠物体的场景中尤为有用。定制的复合检测(CD)模块进一步提高了物体检测的准确性和全面性。而且,该模型采用WIoU v3技术进行边界框损失计算,有效解决了标准及极端条件下与边界框相关的回归难题。实验结果表明,该模型性能卓越,在DUO和UTDAC2020数据集上的平均精度分别达到88.4%和87.7%。值得注意的是,该模型的检测速度高达156帧/秒,满足了关键的实时检测需求。其模型大小仅为4.4兆字节,计算复杂度适中,为11.6 GFLOPs,非常适合集成到水下检测系统中。
背景
全球对海洋资源勘探与可持续利用的需求日益增长,这凸显了精确水下目标检测(UOD)作为有效资源管理基本前提的至关重要性。传统上,人类潜水员是水下检查的主要方式;然而,这些方法伴随着众多风险和操作限制,制约了其可扩展性与安全性。因此,水下机器人技术和计算机视觉领域的技术进步成为了颇具前景的替代方案,实现了水下目标检测的自动化,并提高了检测的准确性和效率。
尽管取得了这些技术进展,但水下环境带来的独特挑战,包括其复杂的光学特性和动态的生态因素,仍然是实现精确水下目标检测的巨大障碍。幸运的是,深度学习技术的快速发展推动了该领域的显著进步。现有的目标检测算法通常分为两类:两阶段算法和单阶段算法。两阶段算法,如R-CNN、Mask R-CNN和Cascade R-CNN,检测精度高,但代价是需要大量计算资源且推理速度较慢。相比之下,以YOLO系列、SSD和RetinaNet为代表的单阶段算法,更注重速度而非精度,这使得它们适用于实时应用场景。
水下环境给目标检测算法带来了独特的挑战,如图像失真、低对比度条件以及小目标检测等。水下图像的质量常常受到诸如失真、雾化、模糊和散射光效应等因素的影响(见下图)。
这些现象严重影响了检测算法的性能,使其难以在受损图像中识别和定位目标。此外,水下目标通常较小且精细,在图像中占据的像素数量有限,从而加剧了检测难度。水下环境错综复杂的背景,包含众多自然和人造物体,进一步增加了这一挑战。另外,许多水下生物具有出色的伪装能力,通过颜色、形状和行为与周围环境无缝融合,给检测算法带来了重大挑战。
为应对这些挑战,人们提出了众多图像处理算法来恢复和增强水下图像。例如,季等人引入了一种深度学习方法,将图像增强技术与MobileCenterNet模型相结合,以有效地检测水下河蟹目标,并在实验中取得了较高的平均精度均值(mAP)。同样,叶等人通过将水下颜色转换方法与神经网络相结合,提出了一种轻量级水下目标检测算法,以解决颜色吸收问题。然而,这些方法往往严重依赖水下图像的固有质量,过度增强可能导致关键图像细节的丢失,从而对检测精度产生不利影响。
最近,研究方向已转向开发专门针对水下目标检测的模型和算法。例如,刘等人提出了YWnet,以应对在水下环境中检测小而模糊目标的挑战,而周等人则将CSMB、LKSP和YOLOv8集成,以实现高精度检测。然而,现有方法要么未能充分解决水下环境的独特挑战,要么引入了巨大的计算开销,阻碍了它们的实际应用。
相关工作
将传统目标检测模型应用于水下环境已取得了有前景的成果。然而,由于水下图像存在高噪声、低对比度、颜色偏差以及目标密集等因素,使得水下图像中的目标检测面临独特的困难。目前主要在两个方向取得了显著进展:通用目标检测方法的进步,以及图像增强与恢复技术的发展。
除了通用目标检测方面,赵等人提出了YOLOv7-CHS模型,该模型融入了上下文Transformer模块和无参数注意力机制,用于学习空间和通道相关性,从而提升检测性能。不过,该模型仍存在参数和通道冗余的问题。贾等人(2022年)提出了改进的EfficientDet(EDR),它采用深度可分离卷积来促进特征层通道之间的信息融合。然而,其对硬件的依赖性带来了挑战,尤其在计算资源有限的水下环境中。季等人提出了一种协作框架,将图像增强与超高分辨率相结合用于水下目标检测。虽然该框架通过学习多尺度特征图之间的相关性提高了检测效果,但却以牺牲检测速度和增大模型规模为代价。
与此同时,图像增强与恢复技术的研究也有进展。胡等人(2017年)基于水下偏振成像模型开发了一种透射率校正方法,以纠正由偏振光效应导致的辐照度计算误差。傅等人(2014年)提出了一种基于Retinex的变分框架,通过颜色校正来处理曝光不足的图像。然而,这种迭代优化方法增加了计算复杂度。刘等人(2022年)将此问题表述为一个多任务优化问题,但该方法需要成对的失真图像和清晰图像进行训练,限制了其实际适用性。尽管图像增强技术做出了有价值的贡献,但对于计算资源受限且有实时性能要求的水下检测设备而言,开发一种准确高效的目标检测算法可能是更实际的方法。如下表所示,大多数研究人员倾向于关注目标检测算法。
我们的研究主要旨在提升模型在水下环境中准确检测和识别目标的能力。为此,我们将可变形注意力模块(夏等人,2022年)融入YOLOv8模型以增强视觉感知能力。此外,我们引入对颜色和纹理等目标特征敏感的ESPPF模块,以解决图像中的视觉缺陷问题。CD模块的使用有效降低了误检和漏检的可能性。最后,我们采用WIoU v3作为损失计算函数,以应对边界框回归的挑战,并平衡极端和普通样本。与现有方法相比,我们的模型不仅提高了检测精度,还减少了参数数量并实现了更快的检测速度。
核心工作
网络结构
上图概述了我们研究的完整工作流程,包含两个关键阶段。在初始阶段,我们针对水下目标检测对YOLO模型的训练进行定制。我们整合图像与标签数据,并应用诸如水平旋转和饱和度调整等图像增强技术来强化图像数据。将图像调整为特定尺寸,并对标签数据进行相应调整以确保一致性。这些步骤生成了一个更全面、丰富的数据集,从而提高模型的准确性和鲁棒性。然后,该数据集被精心划分为训练集、验证集和测试集,前两者用于模型训练,后者则保留用于准确性评估。训练成功后,我们获得了一个以精度和鲁棒性为优先的先进水下目标检测(UOD)模型。
后续阶段如上图右半部分所示,详细说明了训练好的UOD模型的部署与应用。这包括初始化模型的权重和配置文件,随后输入图像或视频帧。在处理之前,输入图像的大小会自适应调整,以匹配训练样本的尺寸。利用训练好的模型,我们的系统生成精确的预测结果,计算置信度分数以量化检测到的目标的可能性,并将它们分类到各自的类别中。最终,系统输出叠加了预测边界框和目标分类的增强图像或帧,从而便于在复杂的水下环境中进行实时监测与分析。
上图展示了创新的CEH-YOLO框架,它由三个核心组件构成:主干网络(backbone)、颈部网络(neck)和头部网络(head)。具体而言,为应对水下目标检测的挑战,我们的方法强调检测算法的有效性和鲁棒性。该框架的核心是高阶可变形注意力模块,它能够突出关键的目标信息;以及增强型空间金字塔池化快速模块,它无缝整合多尺度特征以提高检测精度。此外,复合检测模块与辅助检测器相结合,完善预测并提供上下文信息,从而在不增加模型大小的情况下提升模型性能。
受强大的YOLOv8架构启发,我们的CEH-YOLO框架进行了针对性的策略调整,以克服水下目标检测中固有的独特挑战,如图像模糊以及对小目标或密集目标的敏感度降低等问题。这些有针对性的修改包括用先进的HDA模块替代C2f模块,集成创新的ESPPF模块,并在三个既相互独立又相互关联的复合检测(CD)模块中各自嵌入一个辅助检测器。这些CD模块并行运行,每个模块都经过独特配置,以处理不同尺度(大、中、小)的特征图,共同确保对不同大小目标的高效检测。通过采用加权交并比版本3(WIoU v3)损失函数,我们优先处理中等质量样本并增强训练稳定性,进一步优化网络性能。这些精心的改进使主干网络能够提取并利用高阶空间特征,使CEH-YOLO成为应对复杂水下目标检测任务的卓越选择。
高阶可变形注意力模块
HDA模块采用了夏等人(2022年)提出的可变形注意力机制,使模型能够精准定位特征图中嵌入的关键目标信息(见下图)。
最初,该模块将输入特征图划分为两个不同的部分,有效减少通道间的相互干扰。随后,每个部分通过卷积层进行细化,从而增强其特征表示。接着使用可变形注意力模块,使模型能够根据特征的相对重要性动态地采样和对齐特征。这种自适应行为是通过引入可学习的偏移量来实现的,这些偏移量会对标准注意力网格进行调整。通过这种调整,模型能够敏锐地聚焦于特定区域或感兴趣的目标。
从注意力机制输出的细化特征图会通过额外的卷积层进一步优化,最终由单个卷积层生成最终输出。通过这一过程,HDA模块显著提升了模型在高维空间中提取有意义特征的能力,从而具备更强健、更通用的特征学习能力。
可变形注意力模块的工作机制如下图所示,描述如下:输入特征图首先进行处理。随后生成一个均匀的点网格,其中,,是一个超参数。每个网格点的坐标定义在到范围内,然后归一化到区间。
对特征图应用线性变换以获得查询令牌,其中是一个可学习的权重矩阵。然后将此查询令牌输入到偏移网络中,以计算偏移值。为确保训练稳定性并防止偏移量过大,通过双曲正切函数对的幅度进行约束:,其中是一个预定义的缩放因子。
由偏移值确定的可变形点随后用于从输入图中采样特征,生成可变形键和值嵌入。然后将多头注意力机制应用于这些嵌入,并考虑相对位置偏移,以生成输出特征。
我们提出了一种基于可变形注意力的高阶可变形注意力(HDA)模块。它将输入拆分为两部分,减少通道之间的相互作用,帮助可变形注意力模块学习并突出水下物体的重要特征。此外,由于其复杂的计算过程,HDA模块在学习更多特征的同时,增强了模型的能力和稳健性。另外,在模糊环境中捕捉并突出物体的关键特征,能够将模型的注意力转移到物体区域,显著缓解水下图像质量下降的问题。
实验结果
我们首先将所提出的CEH-YOLO网络与传统目标检测网络进行比较,这些传统网络包括Faster RCNN、SSD(单发多框检测器)、Cascade-RCNN、RetinaNet以及可变形DETR。
上表显示,CEH-YOLO模型在DUO数据集上的AP50得分达到87.7%,在UTDAC2020数据集上达到85.5%。与其他模型相比,CEH-YOLO在计算性能和检测能力方面都展现出显著优势。该模型不仅具有出色的精度,还拥有惊人的检测速度,可达每秒156帧。这一结果表明,CEH-YOLO在水下目标检测领域具有巨大潜力,尤其在涉及小尺度水下物体的场景中。
上图展示了上述模型在一张包含海星和海胆物体的图像上的检测结果。该图像中共有15个海胆和19个海星物体。与其他模型相比,CEH-YOLO模型在小且模糊物体的检测上表现出色,无论是在密集分布区域还是稀疏分布区域,并且它对自身检测结果具有更高的置信度。这些表现突出表明,CEH-YOLO模型在识别和定位小且模糊物体方面取得了显著进展,显示出其在水下目标检测(UOD)任务中的广阔应用前景。
在UTDAC2020数据集上的检测结果对比
我们还进行了实验,在UTDAC2020数据集上将我们的模型与YOLO系列模型进行对比。表6中呈现的结果表明,CEH-YOLO取得了令人瞩目的87.7%的平均精度均值(mAP),超过了其他领先模型。此外,下图展示了CEH-YOLO与YOLOv8相比的精度-召回率曲线。
值得注意的是,CEH-YOLO在所有类别上的mAP指标均有所提升。具体而言,它对海星、海参和扇贝物体的检测准确率优于YOLOv5等模型,而其对海胆的检测性能与YOLOv7相当。YOLOv7在海胆物体检测方面的卓越性能可归因于其ELAN模块高效的层聚合功能。该模块通过聚合不同层的信息,增强了模型对海胆特征的表征能力。然而,跨多个卷积层的复杂计算显著增加了模型的参数数量,这也增加了过拟合的风险。此外,模型规模的扩大不可避免地导致更高的硬件要求以及更长的训练和推理时间。相比之下,我们的模型在海胆检测性能相当的情况下,仅使用了YOLOv7八分之一的参数。