Generalized SAM:可变输入图像尺寸SAM的有效微调
Generalized SAM:可变输入图像尺寸SAM的有效微调
Segment Anything Model(SAM)作为强大的图像分割基础模型,其固定输入图像尺寸为1024×1024,这导致了训练过程中的高计算成本和潜在的图像信息丢失问题。本文提出了一种创新的微调方法——Generalized SAM(GSAM),通过引入位置编码生成器(PEG)和CNN编码器,实现了随机裁剪和可变输入图像尺寸,显著降低了训练成本并保持了高分割精度。
一、研究背景与动机
近年来,深度学习在各种图像识别问题中取得了巨大成功,特别是在语义分割领域。2023年提出的Segment Anything Model(SAM)能够在不经过训练的情况下对自然图像进行高精度的分割。然而,要使用SAM识别任意类别,需要使用目标数据集的教师标签进行微调。由于SAM的输入图像尺寸固定为1024×1024,这导致在微调过程中产生了巨大的计算成本问题。
尽管已经提出了如LoRA[16]和AdaptFormer[9]等方法来更有效地微调SAM,但这些方法的输入图像尺寸仍固定为与SAM相同的1024×1024,因此由输入图像尺寸引起的计算成本问题并未得到解决。还提出了一种将SAM的输入图像尺寸减小到如256×256等小尺寸进行训练的微调方法[20],但输入图像尺寸仍然需要固定。由于每个数据集的像素数量不同,使用固定数量的像素可能会导致诸如图像信息丢失等严重问题。
二、Generalized SAM(GSAM)方法
本文提出了Generalized SAM(GSAM),它能够在输入图像尺寸可变的情况下进行训练。在SAM之前提出的基于卷积神经网络(CNN)的传统分割模型中,即使训练和推理时的输入图像尺寸不同,也能进行分割,因此可以在训练时输入小的随机裁剪图像,在推理时输入原始图像尺寸以获得分割结果。
GSAM是首个在训练时能够对SAM应用随机裁剪的方法,使用小的随机裁剪尺寸降低了训练时的计算成本。SAM的固定输入尺寸是由于固定大小的位置编码所致。因此,GSAM通过使用由深度卷积层组成的位置编码生成器(PEG)来替代位置编码,从而支持可变输入图像尺寸。
此外,还提出了Spatial-Multiscale(SM)AdaptFormer,以便在微调时考虑更多的空间信息。SM-AdaptFormer具有多尺度结构,能够处理整合了更多样化和更广泛范围空间信息的特征向量。由于适当的分割需要各种尺度的信息,因此这是一种针对分割任务的特定微调方法。
三、实验结果与分析
通过对包括车内图像、卫星图像、显微图像、内窥镜图像、CT图像和透明物体图像在内的七个不同数据集进行的评估实验,与传统的SAM微调方法相比,所提出的GSAM能够显著降低训练的计算成本,并达到相当或更高的分割精度。
特别是在Synapse多器官数据集(CT图像)上,GSAM的分割精度比传统的SAM微调方法高出11%以上,这表明我们提出的方法在某些领域可能非常有效。
四、结论
本文为SAM提出了一种新颖且高效的微调方法——GSAM。GSAM能够处理可变输入图像尺寸,使得在SAM的微调过程中首次可以使用随机裁剪。此外,还提出了SM-AdaptFormer,以便在SAM的微调过程中获取多尺度特征。通过在各种数据集上的评估实验,证实了与传统的SAM微调方法相比,GSAM能够显著降低训练的计算成本,并达到相当或更高的分割精度。