AI绘画Stable Diffusion进阶使用指南
AI绘画Stable Diffusion进阶使用指南
Stable Diffusion 是一款强大的AI绘画工具,通过调整模型底模、VAE美化模型、Lora模型等核心组件,可以生成高质量的图像。本文将详细介绍这些组件的功能和使用方法,并提供具体的参数设置建议和实用技巧。
使用模型
在使用Stable Diffusion之前,需要了解几个关键的模型类型:
大模型(底模型)
底模型是整个系统的基础,通常存储在 home\webui\models
目录下。常见的格式包括 ckpt
和 safetensors
,大小一般在2G到7G之间。
常用的底模型包括:
- Realistic Vision:逼真的照片风格。
- Anything v5:动漫风格。
- Dreamshaper:写实绘画风格。
VAE美化模型
VAE模型可以理解为图像的滤镜,能够改变图片的颜色风格和细节。默认情况下,Stable Diffusion WebUI没有显示VAE设置选项,需要在Settings中进行配置:
- 点击「Settings」
- 选择左侧菜单的「User interface」
- 在Quicksettings list中添加
sd_vae,CLIP_stop_at_last_layers
- 点击「Apply settings」和「Reload UI」
下载的VAE模型需要放置在 models/VAE
目录下,例如:
wget https://huggingface.co/stabilityai/sd-vae-ft-mse-original/resolve/main/vae-ft-mse-840000-ema-pruned.ckpt -O ~/workspace/stable-diffusion-webui/models/VAE/vae-ft-mse-840000-ema-pruned.ckpt
wget https://huggingface.co/AIARTCHAN/aichan_blend/resolve/main/vae/Anything-V3.0.vae.safetensors -O ~/workspace/stable-diffusion-webui/models/VAE/Anything-V3.0.vae.safetensors
wget "https://huggingface.co/AIARTCHAN/aichan_blend/resolve/main/vae/Berry's%20Mix.vae.safetensors" -O ~/workspace/stable-diffusion-webui/models/VAE/BerrysMix.vae.safetensors
Lora模型
Lora模型是通过截取大模型的特定部分生成的小模型,虽然功能不如大模型完整,但更短小精悍。常见的格式包括 ckpt
、safetensors
和 pt
,大小通常在100MB左右。下载后需要放置在 models/Lora
目录下。
Embeddings
Embeddings模型主要用于角色训练,能够帮助主模型识别特定角色。格式通常是 pt
,大小在几十KB。下载后需要放置在 webui\embeddings
目录下。
Hypernetworks
Hypernetworks模型主要用于指定特定的画风,格式同样是 pt
,大小在几十KB。下载后需要放置在 webui\models\hypernetworks
目录下。
功能类型选择
除了基本的文生图功能,Stable Diffusion还提供了多种其他功能:
- 图生图(img2img):可以基于已有图片生成新图片,常用于调整和优化图片。
- 附加功能(Extras):支持图片缩放等操作。
- 图片信息(PNG Info):上传本地图片后,可以在其他功能中使用。
- 模型合并(Checkpoint Merger):可以将多个模型按不同权重合并成新的模型。
- 扩展:支持安装和管理各种插件。
掌握提示词技巧
提示词是生成高质量图片的关键,以下是一些实用的技巧:
提示语输入基本要求
- 使用英语描述最佳,避免拼写错误。
- 使用英文半角标点符号。
- 建议使用逗号隔开的单词作为提示词。
- 可以使用自然语言描述图片内容。
- 避免重复描述相近的内容。
- 善于使用反向提示语去除负面效果。
- 尽量使用特定含义的词汇。
- 避免使用连接词如with、and。
- 可以使用emoji进行补充描述。
- 保持提示词简洁,避免过长。
输入提示词技巧
可以使用以下模板来组织提示词:
(quality), (subject)(style), (action/scene), (artist), (filters)
其中:
(quality)
代表画面品质,如low res
结合sticker
使用,或1girl
结合high quality
使用。(subject)
代表画面主题。(style)
代表画面风格。(action/scene)
代表动作或场景。(artist)
代表艺术家或出品公司。(filters)
代表细节补充。
提示词语法
可以使用括号和数字来调整提示词的权重:
(word)
- 将权重提高 1.1 倍((word))
- 将权重提高 1.21 倍[word]
- 将权重降低 90.91%(word:1.5)
- 将权重提高 1.5 倍(word:0.25)
- 将权重减少为原先的 25%
相关模板
正向提示语:
(masterpiece, best quality)
反向提示语:
ugly, fat, obese, chubby, (((deformed))), [blurry], bad anatomy, disfigured, poorly drawn face, mutation, mutated, (extra_limb), (ugly), (poorly drawn hands fingers), messy drawing, morbid, mutilated, tranny, trans, trannsexual, [out of frame], (bad proportions), (poorly drawn body), (poorly drawn legs), worst quality, low quality, normal quality, text, censored, gown, latex, pencil
通用:
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
避免变形的手和多余的手:
extra fingers, fused fingers, too many fingers, mutated hands, malformed limbs, extra limbs, missing arms, poorly drawn hands
辅助工具推荐
标签参考:
最全tag库:https://danbooru.donmai.us/
美图灵感:
OpenArt:https://openart.ai/discovery
prompthero:https://prompthero.com/
ptsearch(韩风):https://www.ptsearch.info/home/
arthub :https://arthub.ai/
lexica(艺术风格):https://lexica.art/
提示词工具:
Danbooru 标签超市:https://tags.novelai.dev/
AI绘画提示词生成器:http://www.atoolbox.net/Tool.php?Id=1101
魔咒百科词典:https://aitag.top/
风格化标签:
Stable Diffusion V1 Artist Style Studies:https://proximacentaurib.notion.site/e28a4f8d97724f14a784a538b8589e7d?v=42948fd8f45c4d47a0edfc4b78937474
Artists To Study:https://artiststostudy.pages.dev/
MidLibrary 图像风格:https://midlibrary.io/midjourney-style-classifier#styles-by-categories
获取和使用插件
Stable Diffusion支持多种插件扩展功能,以下是一些常用的插件推荐:
sd-webui-additional-networks:支持更多网络架构和模型,如RealESRGAN。
sd-webui-controlnet:提供控制网络功能,可以精细控制图像生成结果。
sd_civitai_extension:集成Civitai模型,提供更多高质量模型。
sd-webui-animatediff:提供图像动画生成功能。
地址:https://github.com/continue-revolution/sd-webui-animatediff
sd-dynamic-prompts:实现随机prompt生成。
sd_dreambooth:提供DreamBooth功能,支持细粒度的少样本训练。
sd-webui-deforum:添加各种视觉效果,如图像动画、语音生成等。
Stable-Diffusion-Webui-Civitai-Helper:辅助管理Civitai模型。
地址:https://github.com/butaixianran/Stable-Diffusion-Webui-Civitai-Helper
Tiled Diffusion & VAE:应用瓦片化扩散模型和VAE进行超分辨率图像生成。
地址:https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111
了解和配置参数
常用参数的基本介绍
- 采样器(Sampler):不同采样器的图片效果有所差异。
- 采样迭代步数(Steps):图片生成时需要进行的计算步数,通常20-50步即可。
- 面部修复(Restore faces):可选项,用于修复面部细节。
- 平铺/分块(Tiling):生成平铺拼接的图案。
- 高清修复(Hires.fix):常用于大尺寸高清图片输出,但性能消耗较大。
- 宽度/高度(Width/Height):图像的尺寸,需要是8的倍数。
- 生成批次(Batch count):每次执行画图的批次数。
- 每批数量(Batch size):每批画图的数量,增加这个值可以提高性能但需要更多VRAM。
- 提示词相关性(CFG Scale):控制图片对提示词的遵循程度,一般7-10。
- 随机种子(seed):控制图片生成的随机性,-1表示每次生成都随机。
Samplers 采样器推荐
- DPM(离散概率模型)采样器:包括DPM2、DPM2M等变体。
- 欧拉和亨恩采样器:解决微分方程的数值方法。
- LMS(朗之万蒙特卡洛采样):以效率著称。
- DDIM(去噪扩散隐式模型):允许更快的采样并提供更好的可控性。
- PLMS(概率流朗之万蒙特卡洛采样):结合了概率流和朗之万蒙特卡洛方法。
- UniPC:快速采样扩散模型的统一预测-校正框架。
选择采样器时可以参考以下建议:
- 快速且质量不错的算法:DPM++ 2M Karras,设置20~30步。
- 高质量图像:DPM++ SDE Karras(10
15步)或DDIM(1015步)。 - 稳定可重现的图像:避免使用原始采样器(SDE类)。
- 喜欢简单算法:Euler和Heun是不错的选择。