基于扩散反演的图像超分辨率技术:InvSR方法详解
基于扩散反演的图像超分辨率技术:InvSR方法详解
本文介绍了一种基于扩散反演的新型图像超分辨率(SR)技术,称为InvSR。该技术通过利用预训练的大规模扩散模型中的图像先验知识,结合部分噪声预测策略,实现了高效、灵活且高性能的图像超分辨率解决方案。
核心思想
InvSR的核心思想是利用预训练的大规模扩散模型中的图像先验知识,通过扩散反演技术实现图像超分辨率。具体来说,设计了一个部分噪声预测(PnP)策略,构建扩散模型的中间状态作为采样的起点,从而减少采样步数并提高效率。
方法创新
InvSR引入了一个噪声预测网络,用于从低分辨率(LR)图像中估计噪声图,从而初始化扩散模型的采样过程。同时,支持任意步长的采样(从一步到五步),用户可以根据图像退化的类型和程度灵活调整采样步数。
优势
- 高效性:通过减少采样步数,显著提高了推理速度。
- 灵活性:能够根据不同的退化类型调整采样步数,适应多种现实场景。
- 高性能:即使在一到五步的采样范围内,InvSR也能展现出与现有最先进方法相当或更优的性能。
实验结果
在合成和真实世界的数据集上进行了广泛实验,验证了InvSR在图像超分辨率任务中的有效性。与现有的基于GAN和扩散模型的方法相比,InvSR在保持高保真度的同时,显著提高了效率。
主要贡献
- 提出了一种新的基于扩散反演的SR方法,充分利用了预训练扩散模型的先验知识。
- 提供了一种灵活且高效的采样机制,支持任意步长的采样,适应不同的退化条件。
技术细节
3.1 动机
扩散模型最初是作为一种受非平衡热力学启发的概率生成模型提出的。随后,Song等人将其重新表述为随机微分方程(SDE)框架。在本文中,我们提出了一种适用于概率和SDE扩散公式的通用扩散反演技术。为了便于理解,我们在整个介绍中使用Denoising Diffusion Probabilistic Model(DDPM)的概率框架。
DDPM框架实际上是一个长度为T的马尔可夫链,其前向过程由高斯转移核描述:
3.2 扩散反演
3.2.1 问题简化
训练这个噪声预测器本身具有挑战性。噪声图集M由T个噪声图组成(在大多数当前的扩散模型中通常为1000个),对应于扩散过程的每一步。自然地,使用单个紧凑网络同时估计如此大量的噪声图是非平凡的。更糟糕的是,扩散模型的迭代采样范式会逐渐累积预测误差,这可能会对最终的SR性能产生不利影响。
3.2.2 反演轨迹
3.2.3 模型训练
在训练阶段,我们每次迭代从S={250,200,150,100}中随机选择一个起始时间步来训练噪声预测器。在推理过程中,我们使用五个反演步骤,即M={250,200,150,100,50}。
实验
在本节中,我们首先对所提出的方法进行了分析,然后在一个人工合成和两个真实世界的数据集上进行了广泛的实验,以评估其性能。我们的研究主要集中在×4 SR任务上,遵循之前的工作。为了简化表述,我们将我们的方法称为_InvSR_,代表基于扩散反演的超分辨率。
4.1 实验设置
训练细节:遵循最近工作的设置,我们在LSDIR数据集和FFHQ数据集的20k张人脸图像子集上训练噪声预测器。在每次迭代中,我们从源图像中随机裁剪一个分辨率为512×512的图像块,并使用RealESRGAN的管道合成LR图像。文本提示在训练和测试阶段都固定为一般描述。为了优化网络参数,我们采用了Adam优化器,使用PyTorch的默认设置。训练过程超过100k次迭代,批量大小为64,固定学习率为5e−5。损失函数中的超参数λl和λg 分别设置为2.0和0.1。噪声预测器的架构基于VQGAN的编码器,包含两个下采样块,每个块配备一个自注意力层。
4.2 模型分析
任意步长采样:最近的高效基于扩散的SR方法(如ResShift、SinSR和OSEDiff)将采样过程限制在预定义的步长,与其训练配置一致。相比之下,所提出的_InvSR_支持任意步长的采样,显著增强了灵活性,并适应不同的退化类型,如图1和图6所示。
我们进一步提供了_InvSR_在一、三和五步采样下的全面比较,总结在表1中。从这些结果中可以得出三个关键观察:i)在固定采样步长(例如一步或三步)的情况下,改变起始时间步可以在保真度(通过参考指标衡量)和真实感(通过非参考指标衡量)之间进行权衡。具体来说,使用较大的起始时间步有利于提高真实感,但会牺牲保真度。ii)正如预期的那样,参考指标随着采样步数的增加而恶化,这是由于引入了额外的随机性。iii)有趣的是,非参考指标在使用更多采样步数时也表现出下降。这主要是因为大多数测试图像包含一些噪声,如果使用多个采样步数,可能会导致不希望的伪影,从而降低整体图像质量。然而,在涉及严重模糊的情况下,使用更多采样步数可以有效地恢复复杂的细粒度结构,如图1和图6中的第一个示例所示。
初始噪声预测:图3展示了我们的方法在初始时间步预测的噪声图,显示出与图像内容的强相关性。这一可视化与第3.2.3节中的理论分析一致,实证验证了我们的噪声预测器能够有效地找到与LR相关的噪声图,以促进SR任务。
4.3 与现有技术的比较
考虑到最近的研究主要集中在开发一步扩散方法,我们因此在一步配置下评估_InvSR_与这些方法的比较,以确保公平。
人工合成数据集:表2报告了各种方法在_ImageNet-Test_数据集上的全面评估,涵盖了七个定量指标,补充材料中的图8提供了额外的定性比较。值得注意的是,与最近的一步方法OSEDiff相比,_InvSR_在所有七个指标上均表现出明显的优势。此外,即使与使用50个采样步长的多步方法(如StableSR和DiffBIR)相比,_InvSR_在失真导向的指标(包括PSNR和SSIM)上仍然表现出相当的性能,同时在感知导向的指标(如LPIPS、NIQE、PI和MUSIQ)上优于这些方法。这些结果表明,_InvSR_有效地平衡了性能和效率,推动了基于扩散的SR方法的发展。此外,_InvSR_保持了适中的模型大小,约3400万个可学习参数,进一步增强了其在现实世界应用中的实用性。
真实世界数据集:为了评估真实世界数据集,我们主要关注非参考指标。表2和表3详细比较了_InvSR_与最近的最新技术在_RealSR_和_RealSet80_数据集上的表现。可以很容易地观察到,_InvSR_在大多数非参考指标上优于最近的一步方法,并在与现有多步方法相比时取得了第二好的结果。为了进一步证实这些结论,我们在图4中展示了两个真实世界示例的视觉比较,更多示例可以在补充材料的图9中找到。在第一个示例中,LR图像包含明显的压缩噪声,_InvSR_成功去除了这些伪影并生成了清晰的结果,而其他方法则难以消除这些伪影。在第二个示例中,图像因明显的模糊而退化,_InvSR_生成了更清晰的图像结构,如墙上的瓷砖边缘。这些定量和定性评估突显了_InvSR_在解决真实世界SR任务中的巨大潜力。
结论
我们提出了_InvSR_,一种基于扩散反演的新型SR方法。我们的方法引入了一个噪声预测网络,旨在估计最优噪声图,从而构建预训练扩散模型的中间状态作为采样的起点。这一设计在两个方面具有吸引力:首先,_InvSR_能够充分利用预训练扩散模型中封装的知识,从而促进SR性能。其次,_InvSR_提供了一种灵活的采样策略,能够通过结合时间依赖的噪声预测器架构从扩散模型的各种中间状态开始采样。这种灵活性允许用户根据退化类型或特定需求自由调整采样步数。即使将采样步数减少到一步,_InvSR_仍然展现出显著的优势,超越了最近的一步扩散方法,表明其有效性和效率。