问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DiffMatch:基于视觉语言模型的半监督变化检测技术

创作时间:
作者:
@小白创作中心

DiffMatch:基于视觉语言模型的半监督变化检测技术

引用
CSDN
1.
https://blog.csdn.net/qq_34717531/article/details/142381142

变化检测(Change Detection, CD)是一种识别从一个时间点到另一个时间点发生变化的区域的技术。这种方法在许多领域中都有应用,例如环境监测、城市扩展、灾害评估等。在遥感领域,变化检测技术常用于分析多时相(不同时间拍摄的)卫星或航空图像,以监测地表覆盖和地用途的变化。

在这篇研究中,来自西安交通大学和中国科学院的研究团队提出了一种名为DiffMatch的变化检测技术。这是一种基于视觉语言模型(VLM)引导的半监督方法。核心思想是利用VLM生成伪变化标签,为未标记数据提供额外的监督信号。具体实现方法包括:

  1. 混合变化事件生成策略(CEG):这是一种针对未标记CD数据生成伪标签的方法,解决了现有VLMs主要适用于单时相图像的局限。
  2. 双投影头:由于VLM生成的伪标签可能与一致性正则化范式产生的伪标签冲突,双投影头的设计旨在区分和利用这些不同的信号源。
  3. 辅助分割解码器:通过这些解码器显式地解耦双时相图像的语义表示,同时由VLM引导,进一步增强模型捕捉变化表示的能力。
  4. 特征级对比损失的度量感知监督:这是一种监督方法,用于增强模型的学习效果,通过比较特征级的差异来促进更精准的变化检测。

变化检测技术的意义广泛且深远,特别是在资源有限或难以获取实时数据的情况下。使用半监督和无监督的方法如DiffMatch能大幅度减少对大量手动标注数据的依赖,降低成本和工作量,同时提高处理大规模数据集的可行性和效率。此外,通过自动生成的伪标签和改进的模型结构,这些技术可以在较低的标注开销下实现更高的精度和更好的性能,对于实时或大范围的监测应用尤为关键。

技术背景与挑战

现有的变化检测方法需要大量的像素级标注数据,而标注这些数据是一项费时费力且昂贵的工作,尤其是对于多时相图像而言。为了解决这一问题,研究团队提出了一种基于VLM引导的半监督CD方法,即DiffMatch。DiffMatch的核心思想是利用VLMs合成自由变化标签,为未标记数据提供额外的监督信号。

为了解决当前大部分VLMs仅适用于单时相图像的问题,研究团队首先提出了基于VLM的混合变化事件生成策略(CEG),为未标记的CD数据生成伪标签。由于这些VLM驱动的伪标签提供的额外监督信号可能与一致性正则化范式(例如FixMatch)的伪标签冲突,因此提出了双投影头来解开不同信号源。此外,为了使模型更好地捕捉变化表示,还通过两个辅助分割解码器显式解耦了双时相图像的语义表示,并且这两个解码器也由VLM引导。最后,为了更充分地监督模型,引入了特征级对比损失的度量感知监督。

实验结果

大量实验证明了DiffMatch的优势。例如,DiffMatch在WHU-CD数据集上将FixMatch基线的IoU提高了+5.3,在LEVIR-CD数据集上提高了+2.4,而且仅使用5%的标签。此外,CEG策略在无监督的情况下,性能远远优于现有的无监督CD方法。



论文链接:DiffMatch: VLM-Guided Semi-Supervised Change Detection

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号