问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Stable Diffusion中CFG有啥用?

创作时间:
作者:
@小白创作中心

Stable Diffusion中CFG有啥用?

引用
1
来源
1.
https://www.53ai.com/news/MultimodalLargeModel/2024071408135.html

Stable Diffusion是一种基于扩散模型的AI图像生成技术,而Classifier-Free Guidance(CFG)是其中的关键参数之一。本文将深入探讨CFG的作用、应用场景以及其背后的原理,帮助读者更好地理解和使用这一强大的工具。

1. CFG起到什么作用?

让我们使用以下提示并查看改变 CFG 比例的效果:

breathtaking, cans, geometric patterns, dynamic pose, Eclectic, colorful, and outfit, full body portrait, portrait, close up of a Nerdy Cleopatra, she is embarrassed, surreal, Bokeh, Proud, Bardcore, Lens Flare, painting, pavel, sokov

令人叹为观止、罐头、几何图案、动感姿态、折衷风格、多彩、服装、全身肖像、肖像画、书呆子气质的克利奥帕特拉特写、感到尴尬、超现实、焦外成像效果、自豪、民谣复兴风、镜头光晕、绘画风格,sokov

当CFG的值非常低时,即 1 时,提示词几乎不被遵循。

当CFG值更高(3)时,提示所描述的风格就会显现出来。

当CFG值为 7 时,该图像与更大的 CFG 比例的图像相似。

较高的 CFG 值往往显示相似的图像,并且颜色变得越来越饱和。

我们通常将 CFG 值设置为 7 到 10 之间。这允许提示词引导图像而不会过度饱和。

2. CFG比例并不是绝对的

7到10的CFG值并不适用于所有模型。当使用LCM Lora 和 SDXL Turbo 等快速采样模型时,CFC的值要低许多,通常设置为1到2。

3. 什么是无分类器引导?

要理解无分类引导,首先必须理解它的前身:分类器引导

4. 分类器引导

分类器引导是一种将图像标签放入扩散模型的方法,你可以使用标签来引导扩散过程。例如使用标签 Cat(猫)引导模型生成猫。

分类器引导尺度是控制扩散过程与标签的紧密程度的参数

假设有3组图像,标签分别是猫、狗和人。如果扩散是无引导的,模型将从每组的总体中抽取样本,但有时,它可能会抽取适合两个标签的图像,例如,一个男孩抚摸一只狗。

分类器引导 左:无引导。中:小引导尺度 右:大引导尺度

在高分类器引导下,扩散模型生成的图像会偏向极端或明确的例子。如果你让模型寻找一只猫,它会返回一张毫无疑问是一只猫的图像,而不会返回其他任何东西。

分类器引导尺度控制着引导被遵循的紧密程度。在上面的图中,右侧的采样具有比中间更高的分类器引导尺度。在实际中,这个尺度值是向具有该标签的数据的漂移项的乘数。

5. 无分类器引导

虽然分类器引导取得了破记录的表现,但是它需要一个额外的模型来提供引导,这给训练带来了一些困难。

无分类器引导,用作者的话来说,是一种无需分类器即可实现分类器引导的方法,他们没有使用单独的引导模型,而是使用图像标题并训练条件扩散模式

他们将分类器部分作为 噪声预测器 U-Net 的条件,实现了所谓“无分类器”(即不需要单独的图像分类器)的图像生成指导。

在文生图中提供了此引导

6. 无分类器引导尺度

现在,我们有一个使用条件的无分类器扩散过程,我们该如何控制AI生成的图像应遵循多少引导?

答案:CFG 值控制着文本提示对扩散过程的控制程度。

让我们考虑三个提示:一只猫、一只狗和一个人,由下面的三组图像呈现。你在提示中输入

a cat

如果 CFG 比例为 -1,则忽略提示。生成猫、狗和人类的几率相等。

如果 CFG 比例为中等 (7-10),则遵循提示。您总是会得到一只猫。

你也可以通过提高 CFG 的值从而获得清晰的猫图像。

无分类器引导

7. 无分类器引导的训练

无分类器引导模型需要在有条件和无条件的情况下预测噪声,因此,原则上,你需要训练一个条件模型和无条件模型。

但是实际上,你可以通过只训练一个能够同时完成这两项任务的模型来简化事情,这可以通过偶尔在训练中放弃条件并将条件文本替换为空白标记来实现

8. 最佳的CFG引导值是多少

现在,我们了解CFG的工作原理,那有没有最佳的CFG值是多少呢?

答案是只存在合理值(7-10)但没有最佳值

CFG引导值设定了准确度和多样性之间的权衡。CFG值越高,图像越准确,CFG值越低,图像越多样化。

资料引用
https://stable-diffusion-art.com/cfg-scale/

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号