复旦、南洋理工最新综述:300多篇研究构建多模态图像编辑统一框架
复旦、南洋理工最新综述:300多篇研究构建多模态图像编辑统一框架
近期,复旦大学FVL实验室和南洋理工大学的研究人员发布了一篇关于多模态引导的基于文生图大模型的图像编辑算法的综述论文。这篇综述涵盖了300多篇相关研究,调研的最新模型截止至今年6月。该综述拓展了关于控制条件(自然语言,图像,用户接口)和编辑任务的讨论,以从更新颖和更一般性的角度全面探讨编辑方法。此外,该综述提出的统一框架将编辑过程表示为不同算法族的组合,并通过全面的定性和定量实验来说明各种组合的特性以及适应场景。该框架提供了友好的设计空间以满足用户不同的需求,并为研究者们提供了一定的参考以开发新的算法。
研究背景与意义
图像编辑旨在根据用户的特定需求编辑给定的合成图像或真实图像。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,图像编辑得到了广泛研究。近期,大规模文生图(T2I)扩散模型驱动了图像编辑技术的发展。这些模型根据文本提示生成图像,展示了惊人的生成能力,已成为图像编辑的常用工具。基于T2I的图像编辑方法显著提升了编辑性能,为用户提供了使用多模态条件引导进行内容修改的接口。
综述的主要贡献
编辑任务的定义与讨论范围:相比于现有的算法以及此前的编辑综述,本文对于图像编辑任务的定义更加广泛。具体的,本文将编辑任务分为content-aware和content-free场景组。其中content-aware组内的场景为之前的文献所讨论的主要任务,它们的共性是保留图像中的一些低级语义特征,如编辑无关区域的像素内容,或图像结构。此外,我们开创性地将定制化任务(customization)纳入到content-free场景组中,将这一类保留高级语义(如主体身份信息,或者其他细粒度属性)的任务作为对常规的编辑场景的补充。
一般性编辑算法的统一框架:由于编辑场景的多样性,现有的算法无法很好地解决所有的需求。因此,我们将现有的编辑过程形式化为一个统一的框架,将其表示为两个算法族的组合。此外,我们也通过定性和定量实验分析了不同组合的特性与适应场景,为用户提供了一个良好的设计空间以适应不同的编辑目标。同时,该框架也为研究者们提供了一个较好的参考,以设计出性能更优的算法。
讨论的全面性:我们调研了300多篇的相关论文,系统且全面地阐述了各种模态的控制信号在不同场景下的应用。对于基于训练的编辑方法,本文也提供了在各种场景下将源图像注入到T2I模型的策略。此外,我们也探讨了图像编辑技术在视频领域的应用,使得读者能够快速理解不同领域间编辑算法的联系。
统一框架详解
框架包含了两个算法族:Inversion算法和Editing算法。
Inversion算法
Inversion算法将源图像集合编码到特定的特征或参数空间,得到对应的表征(inversion clue),并用对应的源文本描述作为源图像的标识符。包括tuning-based和forward-based两种类型的inversion算法。
Tuning-based inversion:通过原有的diffusion训练过程将源图像集合植入到扩散模型的生成分布中。形式化过程为:
Forward-based inversion:用于在扩散模型的反向过程中()还原某一条前向路径中的噪声()。形式化过程为:
Editing算法
Editing算法根据和多模态引导集合来生成最终的编辑结果。包含attention-based、blending-based、score-based以及optimization-based的editing算法。
Attention-based editing:形式化过程为:
Blending-based editing:形式化过程为:
Score-based editing:形式化过程为:
Optimization-based editing:形式化过程为:
特别地,对于每一步的反向过程,进行了如下操作:
其中的操作表示编辑算法对于扩散模型采样过程的干预,用于保证编辑后的图像与源图像集合的一致性,并反应出中引导条件所指明的视觉变换。
特别地,我们将无干预的编辑过程视作为普通版本的编辑算法。其形式化为:
Training-Based的编辑方法
与training-free的方法不同的是,training-based算法通过在任务特定的数据集中直接学习源图像集合到编辑图像的映射。这一类算法可以看作是tuning-based inversion的扩展,即通过额外引入的参数将源图像编码到生成分布中。在这类算法中,最重要的是如何将源图像注入到T2I模型中,以下是针对不同编辑场景的注入方案。
图 3. Content-aware任务的注入方案
图 3. Content-free任务的注入方案
实验分析
本文通过定性实验说明了各个组合在多模态编辑任务中的应用:
图 4. 关于attention-based editing的算法组合的应用
图 5. 关于blending-based editing的算法组合的应用
图 6. 关于score-based editing的算法组合的应用
图 7. 关于optimization-based editing的算法组合的应用
对于常见的文本引导的编辑任务,本文通过设计了多个具有挑战性的定性实验,以说明不同组合所适合的编辑场景。此外,本文也相应地收集了高质量和具有一定难度的数据集,以定量地说明各种组合中的先进算法在不同场景下的性能。
对于content-aware任务,我们主要考虑对象操作(增/删/替换)、属性改变、风格迁移。特别地,我们考虑了具有挑战性的实验设置:1. 多目标编辑。2. 对于图像的语义布局影响较大的用例。我们也收集了这些复杂场景的高质量图片,并对不同组合中的先进算法进行全面定量比较。
图 8.Content-aware任务中各个组合的定性比较,从左至右分别是
对于content-free任务,我们主要考虑基于主体驱动的(subject-driven)定制化任务。并考虑了多种场景,如更换背景,与物体交互,行为改变,以及风格改变。我们也定义了大量的文本引导模板,并对各个方法的整体性能进行定量分析。
图 9.Content-free任务中各个组合的定性比较,从左至右分别是
未来研究方向
Content-aware任务的挑战
对于content-aware编辑任务的挑战,现有方法无法同时处理多种编辑场景和控制信号。这一限制迫使应用在不同任务之间切换合适的后端算法。此外,一些高级方法在易用性方面不友好。某些方法需要用户调整关键参数以获得最佳结果,而其他方法则需要繁琐的输入,例如源和目标提示,或辅助掩码。
Content-free任务的挑战
对于content-free编辑任务,现有方法在测试时调优过程冗长且存在过拟合问题。一些研究旨在通过优化少量参数或从头开始训练模型来缓解这一问题。然而,它们常常会丢失个性化主体的细节,或表现出较差的泛化能力。此外,当前方法在从少量图像中提取抽象概念方面也有所不足,它们无法完全将所需概念与其他视觉元素分离开来。
参考文献
- 论文题目:A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
- 论文地址:https://arxiv.org/abs/2406.14555
- 项目地址:https://github.com/xinchengshuai/Awesome-Image-Editing