扩散生成模型在图像领域的应用与发展
扩散生成模型在图像领域的应用与发展
扩散生成模型是当前AI领域最热门的技术之一,它通过模拟随机扩散过程,将随机噪声逐渐转变为目标数据分布,从而生成新的数据样本。从早期的VAE到DDPM,再到Stable Diffusion和High-fidelity Person-centric Subject-to-Image Synthesis等最新进展,本文详细探讨了扩散生成模型在图像生成、文本指导图像生成、图像高保真度合成等方面的基本原理和应用。
摘要
本周总结了之前学习的相关论文,即扩散生成模型在图像领域的发展历程、基本原理及其广泛应用。从早期的VAE到DDPM,再到Stable Diffusion和High-fidelity Person-centric Subject-to-Image Synthesis等最新进展,本文详细探讨了扩散生成模型在图像生成、文本指导图像生成、图像高保真度合成等方面的基本原理和应用。
1 引言
随着深度学习的不断发展,人工智能生成内容成为了一个热门话题,特别是扩散生成模型作为一种新兴的生成模型,在图像生成领域取得了显著进展。扩散生成模型通过模拟随机扩散过程,将随机噪声逐渐转变为目标数据分布,从而生成新的数据样本。本文旨在综述扩散生成模型在图像领域的发展历程、基本原理及其广泛应用,为相关领域的研究人员提供全面的技术介绍和研究方向参考。
2 扩散生成模型的发展历程
2.1 什么是扩散生成模型
生成模型是一类深度学习模型,旨在学习数据概率分布并生成新的数据样本,其被广泛应用于自然语言处理、计算机视觉等多个领域,特别是在文本图像生成任务中,扩散模型、生成对抗网络和自回归模型备受关注,有着较好的应用和持续的关注,且各自具有独特的优势。
扩散模型是一个基于马尔科夫链的生成模型,包含向真实数据中逐步添加噪声的前向扩散过程和学习逐步去除噪声的反向扩散过程,最终通过从噪声中采样生成数据,具备可解释性和多样性的特点。根据是否具有生成条件,可以将扩散模型分为去噪扩散概率模型和条件扩散概率模型。去噪扩散模型根据输入数据的特性分为连续空间和离散空间下的去噪扩散概率模型。连续空间下的去噪扩散概率模型,最初由Sohl-Dickstein提出,后由Ho等人改进,适用于处理图像、音频和视频等连续数据。通过前向过程不断向图像中添加噪声,当每一步添加的噪声幅度足够小时,后验概率近似为对角高斯分布。因此,通过学习一个U-Net模型可以近似真实的后验概率分布,从而实现逐步去噪过程。离散空间下的扩散模型则适用于处理离散数据,通过引入状态转移矩阵,利用邻近关系传播信息,直接捕捉离散数据中的结构依赖关系,实现前向加噪和反向去噪的过程。
在条件扩散概率模型的研究中,存在三种主要的引导策略,即显式分类器引导、隐式分类器引导和基于CLIP多模态引导技术[1]。基于显式分类器的扩散模型,利用一个预训练好的外部分类器的条件概率的对数梯度扰动扩散模型的采样过程,无需对扩散模型进行额外训练,但其消耗资源且生成图像受分类器质量限制。隐式分类器引导消除了单独训练分类器的需求,其通过隐式分类器梯度实现条件生成,方法更加灵活且可以节省训练成本,已成功应用于Stable Diffusion、DALLE-2和Imagen等文本图像生成模型。基于CLIP的多模态引导则利用CLIP 损失来指导生成,显著提高了文本和图像的匹配程度,但是需要频繁微调模型,成本较高。
2.2 DDPM的提出与突破
2020年,Ho等人提出了去噪扩散概率模型(DDPM),将扩散模型成功应用于图像生成任务。
DDPM是一种生成模型,用于生成高质量的数据样本,如图像、音频等。DDPM基于扩散过程的思想,通过一系列步骤逐渐将噪声添加到数据中,直到数据变得完全随机,然后通过逆过程(即去噪过程)逐步从噪声中恢复出原始数据。如图1所示:
图1 扩散生成过程
DDPM将训练集中的图像进行加噪,先从1到T中随机产生一个时刻t,再从正态分布N(0,1)中随机产生一个t时刻噪声图像,并将其加到原始图像中得到加噪图像。向U-Net网络中输入加噪图像和时刻t,该网络预测出该时刻的噪声图像。通过均方差计算噪声图像和噪声图像的误差,得以优化网络。训练过程如图2所示:
图2 DDPM训练过程
完成上述训练之后,通过学习这些随机过程的统计特性,已经能够在反向过程中以确定性的方式预测和去除噪声。这个过程涉及到复杂的统计学习和概率建模,使得模型能够在随机性中找到确定性的恢复路径。DDPM先在T时刻随机产生一个与需要生成图像的大小相同的纯噪声图像。循环T次,每次将噪声图像和时刻t传入U-Net预测出噪声图像,进行相应的计算后,直到t=1时候停止去噪。最终,得到需要生成的图像。DDPM图像生成过程如图3所示:
图3 DDPM图像生成过程
2.3 VAE的提出加速生成过程
变分自编码器(VAE)是一种结合了深度学习和概率模型的生成模型,它旨在学习输入数据的潜在表示,并能够生成新的、与训练数据相似的数据实例。VAE通过编码器将输入数据压缩到一个低维的潜在空间,进行输入数据的关键特征提取。由于潜在空间的维度远低于原始数据,因此在潜在空间上进行计算相较于在原像素空间上计算可以大幅度提升处理效率,以及减少运算难度。VAE将输入数据编码为概率分布,而不是固定的向量。概率化的方法使得VAE在数据生成方面展现出强大的能力,尤其是在生成新的、有意义的样本方面。
2.4 多模态图像生成
随着CLIP等技术的发展,基于文字引导的图像生成扩散模型在图像生成领域取得了显著成果。OpenAI的GLIDE、DALL-E,Google的Imagen,以及开源的Stable Diffusion等模型层出不穷,实现了从描述性文本到相应图像的生成。Stable Diffusion[5]是一种基于深度学习的文字指导图像生成技术,通过模拟扩散过程来逐步从随机噪声生成清晰、高质量的图像。该模型中VAE的引入将像素空间的信息降维至低维的隐空间处理,使得用户级的计算机也能够轻松运行和微调该模型。
Stable Diffusion通过文本提示生成图像的结构图,如图4所示:
图4 Stable Diffusion结构图
图4右侧Conditioning模块将条件输入(文本)转换为机器可以理解的上乘条件。在SD模型中使用CLIP模型实现此功能,CLIP模型结构图如图5所示:
图5 CLIP结构图
CLIP模型的Text Encoder部分被用来将用户的文本输入转换成一个固定长度的向量序列,这个向量序列包含了文本的语义信息,并且与现实世界中的图像有相关性。在Stable Diffusion的图像生成过程中,这些文本特征向量与随机噪声图像一起被送入模型的后续部分,以生成与文本描述相匹配的图像。通过CLIP便可将文本提示转化为能够被SD模型理解的上乘条件,用于指导U-Net对随机噪声图像进行降噪处理。
Stable Diffusion中的U-Net还需额外接收文本描述,即文本特征向量指导去噪过程。U-Net噪声提取过程在低维的隐空间实现,通过VAE实现像素空间到隐空间的映射,以及隐空间到像素空间的重建,结构图如图6所示:
图6 U-Net结构图
通过不断学习隐空间特征,实现从纯噪声图像一步一步去噪成为与文本描述高度吻合的生成图像。
2.5 高保真图像合成的提出
有时用户不仅需要一张纯AI生成的图像,还需要通过文字指导原始图像将其变得更加丰富,以及贴合自身需求。High-fidelity Person-centric Subject-to-Image Synthesis提出了一种名为Face-diffuser的生成管道,旨在解决现有方法在训练不平衡和质量妥协问题上的不足,通过独立微调两个专门的预训练扩散模型来实现人物和语义场景的合成。
Face-diffuser的采样过程分为三个连续阶段:使用TDM构建初步的语义场景构建;利用TDM和SDM基于有效的协作机SNF进行协作,实现将人物融入场景之中;进一步使用SDM来细化生成人物的质量。该模型网络结构图如图7所示:
图7 Face-diffuser网络结构图
3 扩散生成模型的应用
扩散生成模型在图像上的应用十分广泛,包括图像生成、图像超分和修复、视频生成、文本提示图像生成,以及图像合成等。
3.1 图像生成
扩散模型在图像生成任务中取得了显著成果。DDPM的提出奠定了扩散模型在图像生成领域应用的基础,随后的Stable Diffusion等模型进一步推动了图像生成技术的发展。这些模型通过训练神经网络学习如何逐步去除噪声,从而生成高质量的图像。
图像生成技术可以应用于多种场景,如艺术创作、虚拟试妆、虚拟试衣等。例如,Stable Diffusion等模型可以根据用户输入的文本描述生成相应的图像,为艺术创作提供了更多的可能性。
3.2 图像超分和修复
图像超分辨率旨在从低分辨率图像中恢复高分辨率图像,而图像修复则是重建图像中缺失或损坏的区域。扩散模型在图像超分辨率和修复任务中也展现出了强大的能力。
超分辨率扩散是基于扩散的单图像超分辨率模型,通过数据可能性的变分界限进行了优化。该方法能够生成高质量的高分辨率图像,为图像处理领域提供了新的解决方案。
3.3 视频生成
在深度学习时代,由于视频帧的时空连续性和复杂性,高质量视频的生成仍然具有挑战性。然而,扩散模型在提高生成视频质量方面展现出了巨大的潜力。
OpenAI提出了一种基于Transformer架构并结合多模态学习特点的文生视频模型Sora。Sora利用Transformer架构理解和处理视频数据的时间序列特性,使得模型能够理解和生成连贯的视频内容。
3.4 文本提示图像生成
文本提示图像生成是从描述性文本生成相应图像的任务。扩散生成模型在文本到图像生成任务中也取得了显著成果。通过结合预先训练的DDPM和CLIP模型,混合扩散提出了一种通用的基于区域的图像编辑解决方案。该解决方案使用自然语言指导,适用于真实和多样的图像生成。
例如Stable Diffusion等模型可以根据用户输入的文本描述生成相应的图像,为文本到图像生成任务提供了新的解决方案。这种技术可以应用于广告创意、电影特效等领域,为创作提供更多灵感和可能性。
3.5 图像合成
扩散生成模型在图像合成方向也取得了显著成果,能够将两张或更多的图像根据文本描述融合成贴合文本的图像。例如,High-fidelity Person-centric Subject-to-Image Synthesis通过Face-diffuser通道实现独立微调和细粒度协作机制,显著提高了人物和语义场景生成的高保真度。该方法为解决现有人物到图像合成方法中的问题提供了一种有效的解决方案,并为未来的研究和应用提供了新的方向。
总结
本文综述了扩散生成模型在图像领域的发展历程、基本原理及其广泛的应用。从早期的DDPM到最新的High-fidelity Person-centric Subject-to-Image Synthesis等模型,扩散生成模型在图像生成、图像合成、视频生成、文本到图像生成等方面取得了显著成果。未来,随着技术的不断发展和应用场景的不断拓展,扩散生成模型将在更多领域发挥重要作用。同时,也需要继续研究如何进一步提高扩散模型的生成速度和贴合程度,以及如何更好地应用于实际场景中。相信在不久的将来,扩散生成模型将为人工智能领域带来更多的创新和突破。