Stable Diffusion模型对比及使用指南
Stable Diffusion模型对比及使用指南
Stable Diffusion是一种强大的AI生成模型,广泛应用于图像生成领域。本文将详细介绍Stable Diffusion模型的各类别、训练方法及其使用技巧,帮助读者更好地理解和使用这一模型。
前言
Stable Diffusion模型主要分为四类:Checkpoint、LoRA、Textual Inversion、Hypernetwork,分别对应4种不同的训练方式。
Checkpoint:通过Dreambooth训练方式得到的大模型,特点是出图效果好,但由于训练的是一个完整的新模型,所以训练速度普遍较慢,生成模型文件较大,一般几个G,文件格式为safetensors或ckpt。
LoRA:一种轻量化的模型微调训练方法,是在原有大模型的基础上,对该模型进行微调,用于输出固定特征的人或事物。特点是对于特定风格特征的出图效果好,训练速度快,模型文件小,一般几十到一百多MB,需要搭配大模型使用。
Textual Inversion:一种使用文本提示来训练模型的方法,可以简单理解为一组打包的提示词,用于生成固定特征的人或事物。特点是对于特定风格特征的出图效果好,模型文件非常小,一般几十K,但是训练速度较慢,需要搭配大模型使用。
Hypernetwork:类似LoRA,但模型效果不如LoRA,需要搭配大模型使用。
模型推荐顺序为:Checkpoint > LoRA > Textual Inversion > Hypernetwork。通常情况下,Checkpoint模型会搭配LoRA或Textual Inversion模型使用,可以获得更好的出图效果。
补充说明:还有一类VAE模型,简单理解它的作用就是提升图像色彩效果,让画面看上去不会那么灰蒙蒙,此外对图像细节进行细微调整。
模型名称 | 安装目录 | 训练方法 | 常见大小 | 使用方法 | 特点 |
---|---|---|---|---|---|
Checkpoint | \models\Stable Diffusion | Dreambooth | 几GB | WebUI顶部设置栏直接切换 | 最重要的主模型,效果最好,常用于控制画风,但文件体积较大,不够灵活 |
Embedding | \embeddings | Textual Inversion | 几十KB | 提示词框中输入触发关键词 | 最轻量级的模型,适合控制人物角色,但控图能力有限 |
LoRA | \models\Lora | LoRA | 约150MB | 提示词框中输入 <lora:filename:multiplier> | 目前最热门的扩展模型,体积小且控图效果好,常用于固定角角色特征 |
HyperNetworks | \models\hypernetwork | Hypernetwork | 几十MB | 提示词框中输入 <hypenet:filename:multiplier> | 类似低配版LoRa模型,因训练难度较高逐渐被淘汰,多用于控制画风 |
VAE | \models\VAE | / | 约300MB | WebUI顶部设置栏直接切换 | 作为外置模型来弥补主模型的VAE功能,多用于辅助出灰图的主模型 |
网站推荐
我们可以把图片下载后通过解析图片的网站查看提示词。
模型下载
- IP DESIGN | 3D可爱化模型:https://www.liblib.art/modelinfo/2beae39bf23edd20675436f88cbf0942
- 模型文件ckpt和safetensors格式的都放在Stable Diffusion\models\Stable-diffusion目录下即可。safetensors需要升级WebUI版本才支持。
WebUI与ComfyUI
WebUI与ComfyUI,两者本质上都源自Stable Diffusion,但在实际应用上,它们各自展现出了独特的形态。如果以台式电脑为喻,WebUI就如同一台功能齐全、易于使用的一体机,而ComfyUI则更类似于一台可以根据个人需求进行自由组装的电脑。
这两者都是第三方开发的工具,旨在为用户提供更为便捷的图像生成体验。其中,ComfyUI目前已经得到了官方的认可。WebUI易用,但ComfyUI无疑是值得深入学习和掌握的工具。通过不断学习和实践,可以充分利用ComfyUI的优势,实现更加高效、精准的图像生成。
特征 | WebUI | ComfyUI |
---|---|---|
图片生成方式 | 直接输入提示词 | 使用工作流的方式生成图片 |
提示词语法
所有提示词中的符号均为英文字符。
分割
不同的提示词之间使用,
分割。越靠前的提示词权重越高。
权重
示例:
(word:1.5) // 将括号内的提示词权重设置为1.5
(word:0.25) // 将括号内的提示词权重设置为0.25
(word) // 将括号内的提示词权重设置为1.1
((word)) // 将括号内的提示词权重设置为1.21(= 1.1 * 1.1)
[word] // 将括号内的提示词权重为0.9
Prompt editing语法
此提示词语法可以先绘制前面的提示词内容,然后再绘制后面的提示词内容。其基本语法为:
[from:to:when]
举例说明:[male:female:0.6]代表前60%采样步数画male(男人),后40%步画female(女人)。基本上会生成既有男性特性又有女性特征的图片。
交替词语法
此提示词语法代表每隔一步换一个提示词交替绘制,此语法可以绘制出各种融合怪四不像,很有意思!
举个例子:
[cat|tiger]
此语法代表cat和tiger交替绘制,最后能生成虎猫兽。
可组合扩散Composable Diffusion
此语法使用大写AND,以使两者权重保持一致。这里要说明一下,默认的提示词编写是使用逗号分隔的,那种写法是有先后顺序区别的,靠前的提示词权重比较高。这里使用AND语法可以让多个提示词权重保持一致。
示例:
a lion AND a bear
另外此语法支持指定权重值:默认权重值为1,也可以指定每个提示词的权重,比如:
a cat :1.3 AND a dog :1.2 AND a panda :2.6
效果展示
IP DESIGN | 3D可爱化模型
效果:
正向提示词:
masterpiece,high quality,a girl,Fantasy character in elaborate costume,holding a staff,pink hair,butterfly accessories,golden crown,holding a magical staff,detailed gown with iridescent fabrics,rendered illustration,vibrant colors,bokeh effect,fantasy style,anthropomorphism,attack,enchanting,blurry_foreground,detailed embroidery,3d render,cg,magical ambiance,fairy tale,animal,butterfly,fantastic scenes,outdoors,in the forest,feitian,fly up,sky,cloud,flower,wide_shot,stars in the eyes,messy floating hair,colored inner hair,Starry sky adorns hair,(lots of big colorful Bubble),(pearl),(Galaxy),depth of field,butterfly_wings,
反向提示词:
(worst quality:2),(low quality:2),(normal quality:2),lowres,watermark,tail,