问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Stable Diffusion参数详解:步数、采样方法、提示词引导系数

创作时间:
作者:
@小白创作中心

Stable Diffusion参数详解:步数、采样方法、提示词引导系数

引用
CSDN
1.
https://blog.csdn.net/liu289747235/article/details/140784061

在使用Stable Diffusion模型进行AI绘画时,参数设置对最终生成的图片效果有着重要影响。本文将详细介绍模型中的一些关键参数,包括迭代步数、采样方法、提示词引导系数等,帮助用户更好地理解和使用这些参数。

1. 迭代步数

一张图片的生成需要多次迭代才能达到理想的效果。理论上,迭代步数越高,生成的图片质量就越好。但在实际应用中,当迭代步数达到20以上时,效果提升就不再明显,而更多的迭代步数则意味着更长的生成时间。因此,大多数模型推荐使用20-30步,如果需要更精细的图片,可以尝试30-40步。


2. 采样方法

Sampler(采样器/采样方法)决定了使用哪种采样器。不同的采样器有其特点:

  • Euler a(Eular ancestral):可以以较少的步数产生很大的多样性,不同的步数可能有不同的结果。而非ancestral采样器都会产生基本相同的图像。
  • DPM相关的采样器:通常具有不错的效果,但耗时也会相应增加。
  • Euler:最简单、最快的采样器。Euler a更多样,不同步数可以生产出不同的图片,但太高步数(>30)效果不会更好。
  • DDIM:收敛快,但效率相对较低,因为需要很多step才能获得好的结果,适合在重绘时使用。
  • LMS:是Euler的衍生,使用一种相关但稍有不同的方法(平均过去的几个步骤以提高准确性)。大约30step可以得到稳定结果。
  • PLMS:是Euler的衍生,可以更好地处理神经网络结构中的奇异性。
  • DPM2:旨在改进DDIM,减少步骤以获得良好的结果。它需要每一步运行两次去噪,速度大约是DDIM的两倍,生图效果也非常好。但在调试提示词时可能会有点慢。
  • UniPC:效果较好且速度非常快,对平面、卡通的表现较好,推荐使用。

3. CFG Scale(提示词相关性)

CFG Scale决定了图像与提示词的匹配程度。增加这个值将导致图像更接近提示词,但也在一定程度上降低了图像质量。可以用更多的采样步骤来抵消。过高的CFG Scale体现为粗犷的线条和过锐化的图像。一般建议开到7~11。


4. 高分辨率修复(Hires fix)

通过勾选"Hires. fix"来启用。默认情况下,文生图在高分辨率下会生成非常混沌的图像。如果使用高清修复,会首先按照指定的尺寸生成一张图片,然后通过放大算法将图片分辨率扩大,以实现高清大图效果。最终尺寸为(原分辨率*缩放系数Upscale by)。

  • 放大算法:Latent在许多情况下效果不错,但重绘幅度小于0.5后就不甚理想。ESRGAN_4x、SwinR 4x对0.5以下的重绘幅度有较好支持。
  • Hires step:表示在进行这一步时计算的步数。
  • Denoising strength:表现为最后生成图片对原始输入图像内容的变化程度。该值越高,放大后图像就比放大前图像差别越大。低denoising意味着修正原图,高denoising就和原图就没有大的相关性了。一般来讲阈值是0.7左右,超过0.7和原图基本上无关,0.3以下就是稍微改一些。实际执行中,具体的执行步骤为Denoising strength * Sampling Steps。

5. 面部修复

如果生成真人图片,建议开启面部修复,这样能让你的生成图片面部更加理想。但需要注意,非写实风格的人物开启面部修复可能导致面部崩坏。

6. 宽和高

一般来说,生成图片时选择512x512比较安全。也可以参考作者的建议,因为作者在训练大模型时,通常会对图片比例有一定的倾向性。

7. 提示词引导系数

一般建议选择7,对于大多数模型来说,这是一个比较保险的选项。一般来说不应该超过10以上,超过10以上的话,可能会出现一些奇怪的物体。如果太小的话,画面跟提示词的相关性又不够,一般来说选择7比较保险。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号
Stable Diffusion参数详解:步数、采样方法、提示词引导系数