问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

超强结合!!!ControlNet+扩散模型

创作时间:
作者:
@小白创作中心

超强结合!!!ControlNet+扩散模型

引用
CSDN
1.
https://blog.csdn.net/m0_58969377/article/details/138671229

ControlNet是一种神经网络架构,可以通过有效的微调将空间定位的输入条件添加到预训练的文本到图像扩散模型中。这使得模型能够更精确地控制图像的生成,根据具体的空间条件调整输出。

摘要

ControlNet架构的主要目的是为大型预训练的文本到图像扩散模型添加空间条件控制功能。其核心设计包括锁定已有模型、重用编码层以及使用"零卷积"技术。ControlNet在不同规模的数据集上均表现出良好的稳健性,并展示了广泛的应用潜力。

ControlNet主要有两点创新:

  1. 使用Stable Diffusion并冻结其参数,同时复制一份SDEncoder的副本,这个副本的参数是可训练的。这样做的好处有两个:
  • 制作这样的副本而不是直接训练原始权重的目的是为了避免在数据集很小时的过拟合,同时保持了从数十亿张图像中学习到的大模型质量。
  • 由于原始的权值被锁定了,所以不需要对原始的编码器进行梯度计算来进行训练。这可以加快训练速度;因为不用计算原始模型上参数的梯度,所以节省了GPU内存。
  1. 零卷积 :即初始权重和bias都是零的卷积。在副本中每层增加一个零卷积与原始网络的对应层相连。在第一步训练中,神经网络块的可训练副本和锁定副本的所有输入和输出都是一致的,就好像ControlNet不存在一样。换句话说,在任何优化之前,ControlNet都不会对深度神经特征造成任何影响,任何进一步的优化都会使模型性能提升,并且训练速度很快。

问题陈述

当前的文本到图像扩散模型在控制图像的空间组成方面存在限制,难以通过文本提示精确表达复杂的布局、姿态、形状和形式。这通常需要多次试错,通过编辑提示、检查生成的图像然后重新编辑来匹配我们的心理图像。因此,提出是否可以通过让用户提供直接指定他们所需图像组成的附加图像(如边缘图、人体姿态骨架、分割图等)来实现更精细的空间控制。

ControlNet的设计和实施

ControlNet是一个端到端的神经网络架构,用于为大型预训练的文本到图像扩散模型(例如Stable Diffusion)学习条件控制。该架构通过锁定大模型的参数,并创建一个可训练的编码层副本来实现。这些层通过零卷积层连接,权重从零开始,逐步增长,以确保训练初期不引入有害噪声。

实验和应用

展示了ControlNet在多种条件输入(如Canny边缘、霍夫线等)下控制Stable Diffusion的能力,无论是单一条件还是多重条件。报告了ControlNet在不同大小数据集上的训练是稳健和可扩展的,甚至在单个GPU上的训练也能与大规模计算集群训练的工业模型竞争。

贡献

  1. 提出了ControlNet,这是一个神经网络架构,可以通过有效的微调将空间定位的输入条件添加到预训练的文本到图像扩散模型中。这使得模型能够更精确地控制图像的生成,根据具体的空间条件调整输出。

  2. 展示了预训练的ControlNet如何控制Stable Diffusion模型,以响应多种不同的条件输入,包括Canny边缘、霍夫线、用户涂鸦、人体关键点、分割图、形状法线、深度和卡通线条图。这表明ControlNet能够处理和融合多样化的视觉信息来生成图像。

  3. 通过消融实验和与其他架构的比较验证了ControlNet的有效性。同时,进行了针对不同任务的用户研究,这些研究集中于评估ControlNet与先前基线相比的表现。这些实验和用户研究帮助进一步证实了ControlNet在实际应用中的实用性和效果。

相关工作

  1. 微调神经网络的常规方法:继续使用额外的训练数据对神经网络进行训练是一种常见方法,但这可能导致过拟合、模式崩溃和灾难性遗忘。避免问题的先进策略包括HyperNetworks、Adapter方法、Additive Learning、Side-Tuning、Low-Rank Adaptation (LoRA)等。

  2. 图像扩散模型的发展:图像扩散模型由Sohl-Dickstein等人首次提出,并已被广泛应用于图像生成。潜在扩散模型(LDM)在潜在图像空间执行扩散步骤,降低了计算成本。文本到图像的扩散模型如Stable Diffusion和Imagen通过编码文本输入到潜在向量实现了先进的图像生成。

  3. 图像到图像的转换:条件GAN和变换器(如CocosNet v2、Taming Transformer和Palette)学习不同图像域之间的映射。特定图像到图像的任务可以通过操纵预训练的GAN来处理,例如通过额外的编码器控制StyleGANs。

Method

  1. ControlNet的架构设计:在引入ControlNet时,原始的神经块 Θ 被锁定(冻结),同时复制出一个可训练的副本 Θc。可训练副本接收一个外部的条件向量c,用于调整其对特定条件的响应。使用零初始化的1×1卷积层(零卷积层),标记为Z(⋅;⋅),连接原始块和可训练副本。

  2. ControlNet应用于文本到图像的扩散过程:ControlNet被应用到U-net的每个编码层,特别地,为Stable Diffusion的12个编码块和1个中间块创建了可训练的副本。这些编码块以四种分辨率存在(64x64, 32x32, 16x16, 8x8),每个分辨率重复三次,并将输出加到12个跳跃连接和1个中间块。

  3. 训练过程:由于零卷积层不向网络添加噪声,模型应始终能够预测高质量的图像。观察到模型不是逐渐学习控制条件,而是在通常不到10K的优化步骤中突然成功地跟随输入的条件图像,这种现象称为“突然收敛现象”。

  4. 推断过程:Stable Diffusion依赖于一种称为Classifier-Free Guidance (CFG)的技术来生成高质量的图像。对于这种组合,不需要额外的加权或线性插值。

结论

本文介绍了ControlNet,这是一种可以通过有效的微调将局部输入条件添加到预训练的文本到图像扩散模型中的神经网络架构。展示了预训练的ControlNets如何控制多种条件,并通过用户研究与其他架构比较验证了方法的有效性。

本文内容来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号