ETHZ团队提出基于深度梯度学习的高效伪装目标检测方法
ETHZ团队提出基于深度梯度学习的高效伪装目标检测方法
武汉大学、苏黎世联邦理工学院及马克思普朗克信息研究所的研究人员共同提出了DGNet模型,一种利用对象梯度监督实现伪装对象检测(COD)的新型深度框架。它将任务解偶成两个相关联的分支,即语义编码器和纹理编码器。分支之间的核心关联是梯度诱导转换,用来表征语义特征和纹理特征之间的软分组。得益于简单而高效的结构设计,DGNet模型大幅地超越了现有的前沿伪装目标检测模型。特别地,本文的高效版本DGNet-S模型取得了实时推理速度(80fps)且仅有最好模型JCSOD-CVPR216.82%的参数量。应用结果也显示DGNet模型在息肉分割、缺陷检测和透明目标分割任务上取得了优异的性能。本文的源码可在https://github.com/GewelsJI/DGNet中获取,并提供了PyTorch、清华计图(Jittor)、华为昇腾(Ascend)三种深度学习平台框架复现版本。全文已发表于MIR 2023年第一期中,可免费下载!
伪装目标检测的挑战与创新
伪装目标检测(Camouflaged Object Detection, COD)旨在分割具有人工或者自然模式的目标,这些目标能够“完美地”融入背景之中,以避免被发现。一些成功应用已展现出伪装目标检测任务的科学和工业价值,例如:医疗图像分析(即息肉和肺部感染分割)、视频理解(例如:运动分割、视频监控和自动驾驶)和休闲艺术。
近期的一些研究工作在基于完整的目标级别真值掩膜监督之下展现出了卓越的性能。随后,各类前沿的技术被开发用于增强伪装目标检测的底层表征,例如:基于边界和基于不确定性引导的。然而,从边界监督或基于不确定性的模型中学习到的特征,通常会对伪装目标的稀疏边缘做出响应,从而引入噪声特征,特别是对于复杂场景而言(见图1-a)。此外,伪装目标的边缘通常“难以定义”或“不明确”,因而不会从快速视觉扫描的过程中被弹出。本文注意到,尽管目标具有伪装性,但仍然留下一些线索,如图1第一列中的白色斑纹。本文所感兴趣的不是仅提取边界或不确定区域,而是网络如何挖掘物体内部的“鉴别性模式”。
图1 纹理特征可视化。
本文观察到DGNet-S模型在目标边缘的监督(a)下特征图背景中含有扩散的噪声。相比之下,基于目标梯度的监督(b)使网络更关注强度剧烈变化的区域。
从这个角度出发,本文提出一种深度梯度网络(Deep Gradient Network, DGNet),它采用目标级别梯度图进行显式监督。其中,潜在假设是伪装目标内部具有一些像素强度变化。为了简化学习任务,本文将DGNet模型解耦为两个相关联的分支,即:语义编码器和纹理编码器。前者可视为上下文语义学习器,后者则是结构纹理提取器。通过这种方法,可以克服从单个分支中所提取高级特征和低级特征之间的特征歧义。为充分聚合两个分支生成的两类鉴别性特征,本文进一步设计了梯度诱导转换(Gradient-Induced Transition, GIT)模块,以协同的方式集成了不同分组尺度下的多源特征空间(即软分组策略)。在图1-b中,DGNet模型采用一种聚焦于伪装对象内部区域的像素强度敏感策略,可在抑制背景噪声的同时检测纹理模式。
在三个具有挑战性的伪装目标检测基准上所进行的充分实验表明,本文的DGNet模型在不引入任何复杂结构的情况下,实现了最前沿的性能。此外,本文实现了一个仅有8.3M参数量的高效模型DGNet-S,它在伪装目标检测相关的基线模型对比中取得了最快的推理速度(80 fps)。值得注意的是,DGNet-S仅有最佳模型JCSOD-CVPR21参数量的6.82%,且实现了相当的性能表现。上述结果表明,本文的模型大大缩小了科学研究与实际应用之间的差距。DGNet模型的三个下游应用(请参见第5节)也支撑了这个结论。
本文贡献
本文的主要贡献可以归纳为:
引入了一个新颖的深度梯度学习框架用于解决伪装目标检测任务,名为DGNet模型。
提出了梯度诱导转换,它根据软分组策略对来自语义分支和纹理分支的特征进行自动分组。
展示了三个下游应用并取得了良好性能,包括息肉分割、缺陷检测和透明目标分割。