问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

IP-Adapter:一种轻量级的文本兼容图像提示适配器

创作时间:
作者:
@小白创作中心

IP-Adapter:一种轻量级的文本兼容图像提示适配器

引用
CSDN
1.
https://blog.csdn.net/Jeremy_lf/article/details/146188875

IP-Adapter是一种轻量级的图像提示适配器,通过解耦的交叉注意力机制,实现了在不修改原始文本到图像模型的情况下添加图像提示功能。该模型仅需22M参数,就能达到与完全微调的图像提示模型相当甚至更好的性能。

一、总结

IP-Adapter主要解决了文本prompt工程复杂难以描述的问题。尽管现有的image prompt从预训练模型直接微调的方法是有效的,但它们需要大量的计算资源,并且与其他基础模型、文本提示和结构控件不兼容。因此提出了一种有效且轻量的adapter,用于实现预训练文本到图像扩散模型的图像提示功能。

核心思想是IP-Adapter的关键设计是解耦的交叉注意力机制,该机制将文本特征和图像特征的交叉注意力层分开。尽管这种方法很简单,但只有22M参数的IP适配器可以实现与完全微调的图像提示模型相当甚至更好的性能。当我们冻结预训练的扩散模型时,所提出的IP-Adapter不仅可以推广到从同一基础模型微调的其他自定义模型,还可以推广到使用现有可控工具的可控生成。

二、Introduction

DALL-E 2首次尝试支持图像提示,扩散模型以图像嵌入而非文本嵌入为条件,需要一个先验模型来实现文本到图像的能力。然而,大多数现有的文本到图像扩散模型都是以文本为条件生成图像的,例如,流行的SD模型是以从冻结的CLIP文本编码器中提取的文本特征为条件的。这些文本到图像的扩散模型是否也支持图像提示?我们的工作试图以简单的方式为这些文本到图像的扩散模型提供具有图像提示的生成能力。

在这项研究中,我们很好奇是否有可能在不修改原始文本到图像模型的情况下实现图像提示功能。幸运的是,之前的工作令人鼓舞。可控图像生成的最新进展,如ControlNet和T2I适配器,表明可以在现有的文本到图像扩散模型中有效地插入额外的网络来指导图像生成。大多数研究都集中在具有额外结构控制的图像生成上,如用户绘制的草图、深度图、语义分割图等。此外,通过简单的适配器,如T2I适配器的样式适配器和Uni ControlNet的全局控制器,也可以实现参考图像提供的样式或内容的图像生成。

为了实现这一点,从CLIP图像编码器中提取的图像特征通过可训练网络映射到新特征,然后与文本特征连接。通过替换原始文本特征,将合并的特征输入到扩散模型的UNet中,以指导图像生成。这些适配器可以被视为一种能够使用图像提示的方式,但生成的图像仅部分忠实于提示的图像。结果往往比微调的图像提示模型更糟糕,更不用说从头开始训练的模型了。

我们认为,上述方法的主要问题在于文本到图像扩散模型的交叉注意力模块。训练预训练扩散模型中交叉关注层的关键和值投影权重,以适应文本特征。因此,将图像特征和文本特征合并到交叉注意力层中只能实现图像特征与文本特征的对齐,但这可能会遗漏一些特定于图像的信息,最终导致与参考图像的粗粒度可控生成(例如图像样式)。

为此,我们提出了一种名为IP-Adapter的更有效的图像提示适配器,以避免以前方法的缺点。具体来说,IP-Adapter对文本特征和图像特征采用了解耦的交叉注意力机制。对于扩散模型UNet中的每个交叉注意力层,我们只为图像特征添加了一个额外的交叉关注层。在训练阶段,只训练新的交叉注意力层的参数,而原始的UNet模型保持不变。我们提出的适配器是轻量级的,但非常高效:只有22M参数的IP适配器的生成性能与从文本到图像扩散模型的完全微调的图像提示模型相当。更重要的是,我们的IP-Adapter具有出色的泛化能力,并与文本提示兼容。

三、Related Work

文本到图像模型主要分为两类:自回归模型和扩散模型。

早期的工作,如DALLE、CogView和Make-A-Scene,都是自回归模型。对于自回归模型,使用像VQ-VAE这样的图像标记器将图像转换为标记,然后训练以文本标记为条件的自回归变换器来预测图像标记。然而,自回归模型通常需要大量的参数和计算资源来生成高质量的图像,如Parti所示。

Adapters for Large Models

由于微调大型预训练模型效率低下,另一种方法是使用adapter,它添加了一些可训练的参数,但冻结了原始模型。adapter在NLP领域已经使用了很长时间。最近,适配器已被用于实现大型语言模型的视觉语言理解。ControlNet首先证明,adapter可以用预训练的文本到图像扩散模型进行训练,以学习特定任务的输入条件,例如canny edge。几乎同时,T2I-adapter采用简单轻便的适配器来实现对生成图像的颜色和结构的精细控制。

四、Method

所提出的IP-Adapter由两部分组成:一是图像编码器,用于从图像提示中提取图像特征;二是具有解耦交叉注意力的适配模块,用于将图像特征嵌入预训练的文本到图像扩散模型中。

我们利用CLIP图像编码器的全局图像嵌入,它与图像标题对齐良好,可以表示图像的丰富内容和风格。在训练阶段,CLIP图像编码器被冻结。为了有效地分解全局图像嵌入,我们使用一个小的可训练投影网络将图像嵌入投影到长度为N的特征序列中(本研究中我们使用N=4),图像特征的维数与预训练扩散模型中的文本特征的维数相同。我们在这项研究中使用的投影网络由线性层和层归一化组成。

五、实验

5.1训练数据

为了训练IP-Adapter,我们构建了一个多模态数据集,其中包括来自两个开源数据集——LAION-2B和COYO-700M的约1000万对文本图像。

5.2 Implementation Details

我们的实验基于SD v1.5,我们使用OpenCLIP ViT-H/14作为图像编码器。 SD模型中有16个交叉关注层,我们为每个层添加了一个新的图像交叉关注层。我们的IP适配器的总可训练参数(包括投影网络和适配模块)约为22M,使IP适配器非常轻便。我们使用HuggingFace扩散器库实现了IP-Adapter,并采用DeepSpeed ZeRO-2进行快速训练。IP Adapter在8个V100 GPU的单机上进行1M步训练,每个GPU的批处理大小为8。我们使用AdamW优化器,其固定学习率为0.0001,权重衰减为0.01。在训练过程中,我们将图像的最短边调整为512,然后以512×512的分辨率对图像进行中心裁剪。为了实现无分类器引导,我们使用0.05的概率分别删除文本和图像,使用0.05的可能性同时删除文本和图片。在推理阶段,我们采用50步的DDIM采样器,并将引导尺度设置为7.5。当只使用图像提示时,我们将文本提示设置为空,λ=1.0。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号