【AIGC 教程】WebUI 教程:图生图:使用图像+提示词生成图像
【AIGC 教程】WebUI 教程:图生图:使用图像+提示词生成图像
Stable Diffusion 除了支持完全通过提示词来生成图像外,还可以支持使用图像加提示词共同引导来生成图像的能力。
在使用图生图功能时,输入的图像主要会影响生成结果的颜色和构图,所以输入图像不一定需要很多细节。输入提示词的要求,则跟文生图基本一致。
Stable Diffusion WebUI 的第二个栏目就是图生图的功能页面,如图:
这个页面的功能还是比较多的,我们这次主要介绍图生图核心的功能:
- 1、提示词输入区
- 1.1、提示词(Prompt)
- 1.2、负向提示词(Negative prompt)
- 2、引导图像输入区
- 2.1、图生图(img2img)
- 2.2、草稿生图(Sketch)
- 3、尺寸更新模式(Resize mode)
- 4、采样设置
- 4.1、采样方法(Sampling method)
- 4.2、采样步数(Sampling steps)
- 5、目标分辨率(Resize)
- 5.1、宽(Width)
- 5.2、高(Height)
- 5.3、缩放比例(Scale)
- 6、任务批次设置
- 6.1、生成图片次数(Batch count)
- 6.2、一次生成图片数量(Batch size)
- 7、提示词相关性(CFG Scale)
- 8、重绘幅度(Denoising strength)
- 9、种子设置
- 9.1、种子(Seed)
- 9.2、额外种子参数(Extra Seed Options)
- 10、重建人脸(Restore faces)
- 11、无缝贴片(Tiling)
- 12、生成任务启动(Generate)
- 13、生成图预览和功能区
1、提示词输入区
提示词输入区包括两个部分:
- 1.1、提示词(Prompt)
- 1.2、负向提示词(Negative prompt)
在图生图时,模型会使用输入的图像和提示词一起引导生成新图像,其中图像主要会影响生成结果的颜色和构图,提示词在这个基础上则影响其他方面。
这部分与《文生图》一节中所讲内容一样,这里就不再重复介绍了。
2、引导图像输入区
引导图像输入区包括
图生图(img2img)、草稿(Sketch)、内补绘制(Inpaint)、基于草稿内补绘制(Inpaint sketch)、基于上传蒙版内补绘制(Inpaint upload)、批处理(Batch)
几个功能子栏目,这里我们先介绍:
- 2.1、图生图(img2img)
- 2.2、草稿生图(Sketch)
这两个跟图生图核心能力相关的功能,其他功能我们会在后续的章节介绍。
2.1、图生图(img2img)的使用步骤如下图所示:
图生图(img2img)基本步骤
- 1)在
引导图像输入区
导入引导图。我们这里输入的引导图是一张梵高油画风格的猫。
- 2)在
提示词输入区
输入提示词。我们这里输入的提示词
cat, photo
是指示模型生成一张照片风格的猫。
- 3)在
图生图参数设置区
设置相关参数。我们这里都使用了默认参数。
- 4)点击
生成(Generate)
按钮启动图生图任务。
- 5)在
生成图预览和功能区
就可以等待生成的结果。
最后输入的引导图和生成的新图如下:
图生图(img2img)输入图
图生图(img2img)生成图
Stable Diffusion 确实按照提示词的指示生成了一张照片风格的猫。
下面我们把提示词调整为
dog, photo
,再次启动生成任务。这些我们得到的生产结果如下:
图生图(img2img)生成图 2
Stable Diffusion 依旧按照提示词的指示生成了一张照片风格的狗。
可见,在我们上面两次图生图生成任务中,输入的图像影响了生成结果的颜色和构图,而提示词则对结果起着主导作用。
2.2、草稿生图(Sketch)的本质上还是一种图生图(img2img)的能力,但是它有一些区别:
- 1)草稿生图(Sketch)相对图生图(img2img)提供了在输入图像上进行涂绘的功能组件,并且可以设置画笔的颜色。
- 2)草稿生图(Sketch)会把导入的图像和在上面涂绘的部分一起作为输入图像,再和提示词一起引导生成最终结果。
我们来做个示例,如下图:
草稿生图(Sketch)示例
我们在输入小猫图像的头上涂绘了一只皇冠头饰,并输入提示词
cat with crown, painting
,最后生成的图像是一只带着皇冠的小猫,如下图:
草稿生图(Sketch)示例结果
3、尺寸更新模式(Resize mode)
尺寸更新模式(Resize mode)指的是当生成目标图的分辨率与输入引导图的分辨率不一致时,分辨率更新采用的模式。
Stable Diffusion WebUI 目前提供了下面 4 种模式可选:
- Just resize
:简单的调整图片尺寸,如果输入与输出宽高比例不同,图片会被拉伸。 - Crop and resize
:裁剪与调整图片尺寸,如果输入与输出宽高比例不同,会基于图片中心将超出比例的部分进行裁剪。 - Resize and fill
:调整图片尺寸与填充,如果输入与输出宽高比例不同,会基于图片中心将超出比例的部分进行填充。 - Just resize(Latent upscale)
:与
Just resize
模式类似,只不过是在 Latent 潜在空间进行。
使用尺寸更新模式(Resize mode)的示例如下图所示:
Resize mode
包括这几个步骤:
- 1)在
引导图像输入区
导入引导图。我们这里输入的引导图是一张梵高油画风格的猫,分辨率为
512x512
。
- 2)在
提示词输入区
输入提示词。我们这里输入的提示词
cat, photo
是指示模型生成一张照片风格的猫。
- 3)在
尺寸更新模式(Resize mode)
选择模式。我们这里选择使用
Just resize
模式。
- 4)在
目标分辨率(Resize to)
设置生成目标图分辨率。这里设置为
512x768
。
- 5)点击
生成(Generate)
按钮启动图生图任务。
- 6)在
生成图预览和功能区
就可以等待生成的结果。
下面是
512x512
原图与我们分别使上面 4 种模式生成的
512x768
的新图:
原图
模式:Just resize
模式:Crop and resize
模式:Resize and fill
模式:Just resize(Latent upscale)
可以看到使用不同的模式,最终的生成图有不一样的效果。
4、采样设置
采样设置包括两个部分:
- 4.1、采样方法(Sampling method)
- 4.2、采样步数(Sampling steps)
采样设置功能与《文生图》一节中所讲内容一样,这里就不做过多介绍了。
5、目标分辨率(Resize)
目标分辨率(Resize)的设置包括下面几个部分:
- 5.1、宽(Width)
- 5.2、高(Height)
- 5.3、缩放比例(Scale)
它们对应着设置分辨率的两种方式:
- 1)设置目标生成图的宽和高。我们在上面介绍
尺寸更新模式(Resize mode)
时已经用过这个能力。
Resize to
- 2)设置目标生成图的缩放比例。
Resize by
6、任务批次设置
任务批次设置包括两个参数:
- 6.1、生成图片次数(Batch count)
- 6.2、一次生成图片数量(Batch size)
相关功能与《文生图》一节中所讲内容一样,这里就不做过多介绍了。
7、提示词相关性(CFG Scale)
提示词相关性(CFG Scale)相关功能与《文生图》一节中所讲内容一样,这里就不做过多介绍了。
8、重绘幅度(Denoising strength)
重绘幅度(Denoising strength)表示的是生成图与输入图的相似度,取值范围是 0-1,数值越小与输入图越近似,数值越大则越接近提示词的引导效果。通常重绘幅度(Denoising strength)建议设置为
0.75
。
重绘幅度(Denoising strength)
我们来测试一下这个参数,我们使下图作为输入引导图,并输入提示词:
cat, photo
。
原图
当我们分别设置
重绘幅度(Denoising strength)
为
0.1
和
0.9
时,我们得到了如下生成结果:
重绘幅度 0.1