问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Stable Diffusion模型对比及使用指南

创作时间:
作者:
@小白创作中心

Stable Diffusion模型对比及使用指南

引用
1
来源
1.
https://cloud.tencent.com/developer/article/2419444

Stable Diffusion是一种强大的AI生成模型,广泛应用于图像生成领域。本文将详细介绍Stable Diffusion模型的各类别、训练方法及其使用技巧,帮助读者更好地理解和使用这一模型。

前言

Stable Diffusion模型主要分为四类:Checkpoint、LoRA、Textual Inversion、Hypernetwork,分别对应4种不同的训练方式。

  1. Checkpoint:通过Dreambooth训练方式得到的大模型,特点是出图效果好,但由于训练的是一个完整的新模型,所以训练速度普遍较慢,生成模型文件较大,一般几个G,文件格式为safetensors或ckpt。

  2. LoRA:一种轻量化的模型微调训练方法,是在原有大模型的基础上,对该模型进行微调,用于输出固定特征的人或事物。特点是对于特定风格特征的出图效果好,训练速度快,模型文件小,一般几十到一百多MB,需要搭配大模型使用。

  3. Textual Inversion:一种使用文本提示来训练模型的方法,可以简单理解为一组打包的提示词,用于生成固定特征的人或事物。特点是对于特定风格特征的出图效果好,模型文件非常小,一般几十K,但是训练速度较慢,需要搭配大模型使用。

  4. Hypernetwork:类似LoRA,但模型效果不如LoRA,需要搭配大模型使用。

模型推荐顺序为:Checkpoint > LoRA > Textual Inversion > Hypernetwork。通常情况下,Checkpoint模型会搭配LoRA或Textual Inversion模型使用,可以获得更好的出图效果。

补充说明:还有一类VAE模型,简单理解它的作用就是提升图像色彩效果,让画面看上去不会那么灰蒙蒙,此外对图像细节进行细微调整。

模型名称
安装目录
训练方法
常见大小
使用方法
特点
Checkpoint
\models\Stable Diffusion
Dreambooth
几GB
WebUI顶部设置栏直接切换
最重要的主模型,效果最好,常用于控制画风,但文件体积较大,不够灵活
Embedding
\embeddings
Textual Inversion
几十KB
提示词框中输入触发关键词
最轻量级的模型,适合控制人物角色,但控图能力有限
LoRA
\models\Lora
LoRA
约150MB
提示词框中输入 <lora:filename:multiplier>
目前最热门的扩展模型,体积小且控图效果好,常用于固定角角色特征
HyperNetworks
\models\hypernetwork
Hypernetwork
几十MB
提示词框中输入 <hypenet:filename:multiplier>
类似低配版LoRa模型,因训练难度较高逐渐被淘汰,多用于控制画风
VAE
\models\VAE
/
约300MB
WebUI顶部设置栏直接切换
作为外置模型来弥补主模型的VAE功能,多用于辅助出灰图的主模型

网站推荐

我们可以把图片下载后通过解析图片的网站查看提示词。

模型下载

WebUI与ComfyUI

WebUI与ComfyUI,两者本质上都源自Stable Diffusion,但在实际应用上,它们各自展现出了独特的形态。如果以台式电脑为喻,WebUI就如同一台功能齐全、易于使用的一体机,而ComfyUI则更类似于一台可以根据个人需求进行自由组装的电脑。

这两者都是第三方开发的工具,旨在为用户提供更为便捷的图像生成体验。其中,ComfyUI目前已经得到了官方的认可。WebUI易用,但ComfyUI无疑是值得深入学习和掌握的工具。通过不断学习和实践,可以充分利用ComfyUI的优势,实现更加高效、精准的图像生成。

特征
WebUI
ComfyUI
图片生成方式
直接输入提示词
使用工作流的方式生成图片

提示词语法

所有提示词中的符号均为英文字符。

分割

不同的提示词之间使用,分割。越靠前的提示词权重越高。

权重

示例:

(word:1.5) // 将括号内的提示词权重设置为1.5
(word:0.25) // 将括号内的提示词权重设置为0.25
(word) // 将括号内的提示词权重设置为1.1
((word)) // 将括号内的提示词权重设置为1.21(= 1.1 * 1.1)
[word] // 将括号内的提示词权重为0.9

Prompt editing语法

此提示词语法可以先绘制前面的提示词内容,然后再绘制后面的提示词内容。其基本语法为:

[from:to:when]

举例说明:[male:female:0.6]代表前60%采样步数画male(男人),后40%步画female(女人)。基本上会生成既有男性特性又有女性特征的图片。

交替词语法

此提示词语法代表每隔一步换一个提示词交替绘制,此语法可以绘制出各种融合怪四不像,很有意思!

举个例子:

[cat|tiger]

此语法代表cat和tiger交替绘制,最后能生成虎猫兽。

可组合扩散Composable Diffusion

此语法使用大写AND,以使两者权重保持一致。这里要说明一下,默认的提示词编写是使用逗号分隔的,那种写法是有先后顺序区别的,靠前的提示词权重比较高。这里使用AND语法可以让多个提示词权重保持一致。

示例:

a lion AND a bear

另外此语法支持指定权重值:默认权重值为1,也可以指定每个提示词的权重,比如:

a cat :1.3 AND a dog :1.2 AND a panda :2.6

效果展示

IP DESIGN | 3D可爱化模型

效果:

正向提示词:

masterpiece,high quality,a girl,Fantasy character in elaborate costume,holding a staff,pink hair,butterfly accessories,golden crown,holding a magical staff,detailed gown with iridescent fabrics,rendered illustration,vibrant colors,bokeh effect,fantasy style,anthropomorphism,attack,enchanting,blurry_foreground,detailed embroidery,3d render,cg,magical ambiance,fairy tale,animal,butterfly,fantastic scenes,outdoors,in the forest,feitian,fly up,sky,cloud,flower,wide_shot,stars in the eyes,messy floating hair,colored inner hair,Starry sky adorns hair,(lots of big colorful Bubble),(pearl),(Galaxy),depth of field,butterfly_wings,

反向提示词:

(worst quality:2),(low quality:2),(normal quality:2),lowres,watermark,tail,
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号