资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

智能创意时代的视觉表达：可控图像合成方法进展研究

创作时间:

作者:

@小白创作中心

智能创意时代的视觉表达：可控图像合成方法进展研究

引用

搜狐

https://www.sohu.com/a/794303516_121119002

本文全面系统地回顾了可控图像合成领域的研究进展。文章从可控图像合成方法的分类和评估系统到现有挑战和未来研究方向，详细介绍了几种具有代表性的深度生成模型，并根据控制模式的不同，将现有可控图像合成方法划分成条件可控图像合成方法、基于GAN反演的可控图像合成方法和因果可控图像合成方法三类。

引言

图像合成是计算机视觉和图形学领域的一个具有挑战性的领域，已经广泛的应用于图像生成、图像 - 图像转换、图像编辑等各种场景。它旨在通过学习从一个源域（例如图像、文本、标签甚至噪声）到图像的映射关系，从而生成包含某些特定期望内容的目标图像。在当前大规模生成模型蓬勃发展的时代，各种先进的生成式模型（如生成对抗网络、变分自编码器、流模型、Transformer、扩散模型等）为数字艺术的创作提供了前所未有的机遇。

尽管生成高分辨率、高保真度的多样化艺术图像仍然是数字艺术领域的主要目标，然而，对于生成图像的可控性的追求已经成为艺术创作者们极为重视的方向。以艺术创作为例，数字艺术图像的可控性体现在诸多方面，如图像的风格、艺术元素、色彩搭配等等。这种可控性的实现往往可以通过引入额外的信息到生成模型中来实现，这些额外的信息可以是文本输入，比如“生成一幅未来科技感的抽象画”；或是图像输入，如风格参考图像、草图图像或边缘图像等。

可控图像合成方法的核心理念在于允许用户在生成或编辑图像的过程中，直观地指导所需的图像内容，注重用户对内容、对象位置与方向、背景等方面更精准掌握的能力。以实例而言，当用户希望将一张真实图像转变为梵高风格的图像时，可通过提供梵高画作或者简要描述（例如“梵高风格”）来实现图像的风格转换。这种可控性的设计使得艺术家能够更加专注于所需图像的生成，为创作者提供了更强大、更精准的创作工具。这不仅丰富了数字艺术的创作手段，同时也满足了个性化和定制化艺术需求，推动了数字艺术领域的创新和发展。

值得一提的是，可控图像合成看作是一个聚焦的图像生成，它专注于生成图像的特定部分。根据控制模式的不同，现有的可控图像合成方法可以分为三类，即条件图像合成方法、基于生成对抗网络（GAN）反演的图像合成方法和因果可控图像合成方法。图 1 展示了概率视角下这三种不同的可控图像生成方法。

图1 概率视角下的可控图像生成

条件可控图像合成方法旨在借助于给定的一组特定先验信息（如属性标签、文本描述、语义分割图、关键点、语音、生理信号等）来指导图像生成。深度生成模型是实现条件可控图像合成方法最流行的范式，特别是变分自编码器、GAN、扩散模型和Transformer。

条件可控图像合成方法通过已知图像与其对应条件标签的联合分布，以此来生成新的图像。正式地说，条件图像合成方法通过学习训练数据集中图像 X 及其相应的条件标签 Y 的联合分布 P（X，Y）来建模条件概率 P（X | Y）。以数字艺术图像为例，用户可以通过给定条件 Y（如“抽象风格”）来生成对应风格的艺术图像。然而此类方法在处理多变量问题时可能会失效，因为在现实场景中，观察到的类和未观察到的变量之间可能存在复杂的关联和依赖关系。当我们设置条件以控制观察到的类时，未观察到的变量可能由于其与观察到的类之间的关系而发生变化，导致生成的图像出现不希望的变化。简言之，条件模型在处理复杂场景时可能无法完全捕捉所有因素的相互作用，难以实现细粒度的可控图像合成。

与条件可控图像合成方法不同，基于 GAN 反演的方法从表示学习的角度出发，利用编码器来提取图像的潜在表示（潜在编码），并进一步借助于预训练好的属性分类器，或者其他简单的图像统计信息来发现潜在空间中语义有意义的方向，从而实现对图像中特定部分的控制。仍然考虑上述的艺术图像，基于 GAN 反演的方法可以将输入艺术图像的潜在编码沿着在潜在空间中学习到的语义方向移动来改变艺术图像的风格、色彩，以及图像中的某些特定目标物体的形状、大小等。

与条件可控图像合成方法类似，基于 GAN 反演的方法可以通过学习联合分布 P（X，Y，Z）建模条件分布 P（X | do（Y ），Z），其中 Z 代表潜在表征，通常是不可观察的。通过改变潜在代码 Z，用户可以通过优化 P（X | Z）来改变图像中的特定属性或者部件。值得注意的是，学习解纠缠表征是基于 GAN 反演的方法的一种特殊情况，它可以清楚地将图像的底层结构分离成不相交的部分。换句话说，潜在编码 Z 中的每一个维度都表征了图像中单个部分或属性。

前述两种方法基于训练分布和测试分布匹配的假设。然而，由于存在数据选择偏差，模型容易学习到不稳定的虚假相关性，从而导致生成图像的多样化变得差强人意。考虑一个生成模型旨在从输入文本描述中生成具有艺术风格的图像的情景。在生成模型训练中，由于训练数据中艺术家作品与特定文本描述的相关性，生成模型可能在测试阶段展现虚假相关性，即认为文本中的特定词汇或主题与艺术风格密切相关。这可能导致生成的图像过于偏向某位艺术家的风格，而忽视了用户输入文本中多个可能的风格元素。因此，解决这一问题需要考虑一组分布，每个分布与一个可能的操作相关联，以更好地平衡多样性。因果可控图像是通过探索行为与期望图像实体之间的因果关系，学习图像生成机制中的内隐因果表示来处理这些分布。该类方法在统计模型中引入了一个新的算子 do（Y ）来表示这种行为，表示对 Y 的操作而不是观察，此时的优化目标变为 P（X | do（Y ））。这些因果可控生成模型能够通过引导生成模型对图像部件或属性，进行干预、模拟操作和去除虚假相关性来学习因果关系。通过这种方式，用户可以通过显式地了解不同实体如何相互影响，直接操纵变量 Y 来控制图像中的实体。

因此，为了帮助读者对数字艺术中可控图像合成方法进展有一个系统的了解，本文全面回顾和讨论近年来提出的可控图像合成方法。

可控图像合成

条件可控图像合成方法

条件图像合成通过对给定先验信息的图像条件分布进行建模，实现对输入图像的可控合成或编辑。根据输入先验模态的不同，条件可控图像合成方法可分为五大类。

（1）标签控制，包括类标签、语义分割图、图像布局、场景图等；
（2）视觉控制，如草图图像、灰度图、边沿图像、低分辨率图像或部分图像块；
（3）文本控制，即给定一个文本描述来合成相应的图像，也称为文本-图像合成；
（4）音频控制，即不同的声音信号，包括人的语言、动物的叫声、车辆的声音等；
（5）多模态控制，即采用上述四种模态信息中的两种或更多种。

图2（a）展示了条件可控图像合成方法中控制信息的类型。

图2 可控图像合成方法分类

基于标签控制的方法，通常借助给定的图像属性、图像布局、语义分割掩码或场景图为图像合成提供控制信息。然而，这类方法往往需要额外的标签数据或配对训练图像。获取配对训练数据和标记数据的过程十分困难，通常涉及高昂的时间成本，这对此类方法的发展造成了极大限制。视觉控制进一步促进了图像合成过程中的交互式操作和精确处理，得益于视觉控制固有的传达空间和结构细节的能力。与视觉控制不同，文本控制提供了一种更为灵活的方式来表达和阐释视觉概念，为图像合成提供了更大的创造性和多样性。然而，由于文本描述可能存在歧义，使得生成图像变得难以预测。例如，当用户给出一个模糊的文本描述时，如“一个具有未来感的城市景观”，生成模型可能会面临理解和呈现未来感的具体细节的挑战，导致生成的图像不符合用户预期。语音控制方法也存在类似的问题，因此，为了综合多种模态条件信息的优势以生成精准可控的高质量艺术图像，许多基于多模态条件信息的可控图像合成方法已经出现。此类方法采用各种控制条件的组合，如边缘图 + 文本描述、语义分割图 + 文本描述、人体姿势 + 布局，以及语义分割图 + 草图等，以更精确地指导合成过程。例如，ControlNet 支持文本提示和附加输入条件，如边缘图、分割图、关键点等来精确控制图像合成；GLIGEN 采用门控自注意层来处理条件，将新的条件信息（如边界框信息）输入到预训练模型中，以提高质量和可控性；还有一些方法可以根据不同的输入方式，生成语言、图像、视频或音频等多种输出方式的组合。

基于 GAN 反演的可控图像合成方法

图 2（b）中展示了基于 GAN 反演的方法流程，包括如何获取真实图像的潜在编码、如何在 GAN 空间（包括潜空间和参数空间）中找到有意义的方向，以及如何实现可控图像生成三个关键模块。

（1）潜在编码获取。现有的潜在编码获取方法大致可分为基于优化的方法、基于编码器的方法和混合方法这三类。基于优化的方法将给定图像与重构图像之间的差值最小化来获得最优潜在编码，该类方法可以获得较高的图像重构质量，但这种优化问题高度非凸，容易陷入局部最优解，因此无法通过优化单个潜在编码重构任意图像。基于编码器的方法通过学习附加的编码器来获取真实图像的潜在码，虽然更方便，但难以获得高保真度的重建图像。因此，许多方法将上述两种方法相结合（称为混合方法），首先利用编码器获得初始潜在编码；然后对初始潜在编码进行优化以得到能够准确重构源图像的最优潜在编码。该方法极大地减轻了基于优化方法获取初始潜在编码的难度，同时保证了重构图像的质量。

（2）GAN 空间探索。根据是否采用监督信息，现有的潜在空间探索方法可以分为基于监督的方法和非监督的方法两种。基于监督的方法通常是随机抽取大量的潜在编码，然后用预先训练好的生成器合成一组图像来构建标注数据集，用于训练潜在空间中的分类器。例如，InterFaceGAN 通过训练单独的支持向量机在潜在空间中获得二元属性的线性超平面，然后利用得到的超平面来实现图像属性操作的目的。然而，此类方法依赖于预定义的分类器，限制了图像编辑的灵活性。基于无监督的方法也取得了令人振奋的成果。例如，通常 Härkönen et al.（2021）使用主成分分析在 GAN 潜在空间中寻找重要方向；Shen et al.（2021）提出了一种封闭因子分解算法，通过直接分解预训练的生成器权重来实现潜在语义发现。该方法不依赖于数据采样和模型训练，在潜在空间中发现语义有意义的编辑方向。但是，这类方法往往无法实现高精度图像编辑，难以实现实时交互式图像合成。

（3）图像可控合成。现有的方法通常将编辑过的潜在代码（沿着学习到的语义方向编辑潜在编码）输入到现成的、训练有素的生成器中，以获得高分辨率、高保真度的合成图像。常用的预训练生成器主要有BigGAN、PGGAN、StyleGAN、StyleGAN2等。值得注意的是，由于使用预训练生成器限制了基于GAN 反演的方法的表达能力，使得生成图像缺乏多样性。

因果可控图像合成方法

因果可控合成方法旨在通过建模图像中各属性之间的因果关系，生成更加合理的图像。该方法承认图像属性之间的相互依赖性，从而产生更严格的属性变化和增强的可控性。以艺术图像生成为例，显然，艺术图像中的各种属性并不是相互独立的，如不同的颜色、笔触，以及画布纹理都能够反映出不同的情感和艺术风格。而条件可控方法和基于GAN 反演的方法往往假设属性之间相互独立，从而生成的图像往往会产生不合理的变化。因果可控图像生成方法则考虑了属性之间的因果关系，并允许因果干预操作和反事实图像生成。以人脸画像为例，微笑导致嘴巴张开、眼睛变小，即眼睛形态 <- 微笑 ->嘴巴形态。在因果可控图像生成方法中，微笑（原因属性）的改变会引起嘴巴和眼睛形态（结果属性）的变化；反之，嘴巴和眼睛（结果属性）的改变则不会导致微笑（原因属性）的变化。图 2（c）中展示了两种典型的因果可控图像合成方法。

根据是否给定因果图或者因果序作为模型先验，现有的因果可控生成方法可以分为基于因果先验的方法和基于因果表示学习的方法两种。前一种方法利用给定的因果图学习一个因果生成模型来实现因果可控图像合成，例如 CausalGAN，DEAR。这类方法需要依赖与专家知识去事先指定因果图，然而现实中很多因果关系是人类难以定义的。另一类方法则是利用因果表征学习从数据中学习图像潜在表征之间的因果关系，如 CausalVAE，CCIG。此类方法不仅能够实现因果可控图像生成，而且能够对学习到潜在编码执行干预操作来生成反事实图像。然而，这种方法的性能高度依赖于学习到的因果图的质量；换言之，如果学习到的潜在表征的因果关系不理想，合成图像的合理性就会受到影响。

开放性问题和未来方向

尽管可控图像合成方法在智能化创意时代取得了显著的进展，并表现出良好的性能，但在实际应用中仍存在许多挑战。

有限的模型可扩展性。由于艺术图像类型多样，不同数据集之间数据分布往往不同，可控图像合成模型通常需要在各种数据集上进行训练，因而带来了巨大的计算资源浪费。解决这一问题的途径之一是通过训练更为通用的基础模型，以增加数据量、丰富图像类别、减小数据分布偏差等手段来提高基础模型的可扩展性。

缺乏统一的图像质量评价指标。尽管有许多图像质量评价指标用于评估合成图像的质量，如SSIM、PSNR 等，但这些指标往往依赖于源图像的存在，但实际上合成图像很难获取对应的源图像。其他一些指标，如 FID 和 IS 虽然能够评估生成图像清晰度和多样性，但要量化合成艺术图像是否能满足用户预期的效果却很困难。因此，目前大多数合成方法仍然采用主观评价评估合成图像的质量。如何设计一种统一的图像编辑质量评价系统，更客观、全面地评估合成图像的质量仍然是未来的一大挑战。

多模态可控图像生成。现有的可控艺术图像生成方法通常针对每种控制模式（如文本控制、语音控制等）设计专门的方法，大多数方法只能使用一种控制模式，很少有能够同时组合多种类型的控制模式进行图像合成的方法。如何将来自不同模式的多个控制模式整合到一个统一框架中，实现更灵活的可控艺术图像合成是未来一个值得研究的课题方向。为实现这一目标，有必要创建一个大规模多模态数据集，其中包含来自多种模态的数据标注（语义分割掩码、文本描述、语音描述、草图、深度图等）。

伦理问题和风险。随着人工智能生成图像技术的发展，对生成图像潜在滥用的担忧日益增加。例如，可能出现伪造艺术品、版权纷争、隐私安全和文化敏感性等问题。此外，可控图像合成是一项高度数据驱动的任务，这可能导致在大规模、单一数据上训练的模型放大数据集中存在的偏见，带来伦理风险。因此，人们正在努力研究大规模模型产生的视觉操纵，以区分生成的图像和真实的图像，并追溯到它们的源模型。另外，也应该制定相应的政策及伦理准则，以确保 AIGC 生成艺术图像技术的负责应用。