问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

【AIGC 教程】WebUI 教程:图生图:使用图像+提示词生成图像

创作时间:
作者:
@小白创作中心

【AIGC 教程】WebUI 教程:图生图:使用图像+提示词生成图像

引用
CSDN
1.
https://blog.csdn.net/Trb201013/article/details/145616996

Stable Diffusion 除了支持完全通过提示词来生成图像外,还可以支持使用图像加提示词共同引导来生成图像的能力。
在使用图生图功能时,输入的图像主要会影响生成结果的颜色和构图,所以输入图像不一定需要很多细节。输入提示词的要求,则跟文生图基本一致。
Stable Diffusion WebUI 的第二个栏目就是图生图的功能页面,如图:

这个页面的功能还是比较多的,我们这次主要介绍图生图核心的功能:

  • 1、提示词输入区
  • 1.1、提示词(Prompt)
  • 1.2、负向提示词(Negative prompt)
  • 2、引导图像输入区
  • 2.1、图生图(img2img)
  • 2.2、草稿生图(Sketch)
  • 3、尺寸更新模式(Resize mode)
  • 4、采样设置
  • 4.1、采样方法(Sampling method)
  • 4.2、采样步数(Sampling steps)
  • 5、目标分辨率(Resize)
  • 5.1、宽(Width)
  • 5.2、高(Height)
  • 5.3、缩放比例(Scale)
  • 6、任务批次设置
  • 6.1、生成图片次数(Batch count)
  • 6.2、一次生成图片数量(Batch size)
  • 7、提示词相关性(CFG Scale)
  • 8、重绘幅度(Denoising strength)
  • 9、种子设置
  • 9.1、种子(Seed)
  • 9.2、额外种子参数(Extra Seed Options)
  • 10、重建人脸(Restore faces)
  • 11、无缝贴片(Tiling)
  • 12、生成任务启动(Generate)
  • 13、生成图预览和功能区

1、提示词输入区

提示词输入区包括两个部分:

  • 1.1、提示词(Prompt)
  • 1.2、负向提示词(Negative prompt)

在图生图时,模型会使用输入的图像和提示词一起引导生成新图像,其中图像主要会影响生成结果的颜色和构图,提示词在这个基础上则影响其他方面。

这部分与《文生图》一节中所讲内容一样,这里就不再重复介绍了。

2、引导图像输入区

引导图像输入区包括

图生图(img2img)、草稿(Sketch)、内补绘制(Inpaint)、基于草稿内补绘制(Inpaint sketch)、基于上传蒙版内补绘制(Inpaint upload)、批处理(Batch)

几个功能子栏目,这里我们先介绍:

  • 2.1、图生图(img2img)
  • 2.2、草稿生图(Sketch)

这两个跟图生图核心能力相关的功能,其他功能我们会在后续的章节介绍。

2.1、图生图(img2img)的使用步骤如下图所示:

图生图(img2img)基本步骤

  • 1)在

引导图像输入区

导入引导图。我们这里输入的引导图是一张梵高油画风格的猫。

  • 2)在

提示词输入区

输入提示词。我们这里输入的提示词

cat, photo

是指示模型生成一张照片风格的猫。

  • 3)在

图生图参数设置区

设置相关参数。我们这里都使用了默认参数。

  • 4)点击

生成(Generate)

按钮启动图生图任务。

  • 5)在

生成图预览和功能区

就可以等待生成的结果。

最后输入的引导图和生成的新图如下:


图生图(img2img)输入图


图生图(img2img)生成图

Stable Diffusion 确实按照提示词的指示生成了一张照片风格的猫。

下面我们把提示词调整为

dog, photo

,再次启动生成任务。这些我们得到的生产结果如下:


图生图(img2img)生成图 2

Stable Diffusion 依旧按照提示词的指示生成了一张照片风格的狗。

可见,在我们上面两次图生图生成任务中,输入的图像影响了生成结果的颜色和构图,而提示词则对结果起着主导作用。

2.2、草稿生图(Sketch)的本质上还是一种图生图(img2img)的能力,但是它有一些区别:

  • 1)草稿生图(Sketch)相对图生图(img2img)提供了在输入图像上进行涂绘的功能组件,并且可以设置画笔的颜色。
  • 2)草稿生图(Sketch)会把导入的图像和在上面涂绘的部分一起作为输入图像,再和提示词一起引导生成最终结果。

我们来做个示例,如下图:

草稿生图(Sketch)示例

我们在输入小猫图像的头上涂绘了一只皇冠头饰,并输入提示词

cat with crown, painting

,最后生成的图像是一只带着皇冠的小猫,如下图:


草稿生图(Sketch)示例结果

3、尺寸更新模式(Resize mode)

尺寸更新模式(Resize mode)指的是当生成目标图的分辨率与输入引导图的分辨率不一致时,分辨率更新采用的模式。

Stable Diffusion WebUI 目前提供了下面 4 种模式可选:

  • Just resize
    :简单的调整图片尺寸,如果输入与输出宽高比例不同,图片会被拉伸。
  • Crop and resize
    :裁剪与调整图片尺寸,如果输入与输出宽高比例不同,会基于图片中心将超出比例的部分进行裁剪。
  • Resize and fill
    :调整图片尺寸与填充,如果输入与输出宽高比例不同,会基于图片中心将超出比例的部分进行填充。
  • Just resize(Latent upscale)
    :与
    Just resize
    模式类似,只不过是在 Latent 潜在空间进行。

使用尺寸更新模式(Resize mode)的示例如下图所示:

Resize mode

包括这几个步骤:

  • 1)在

引导图像输入区

导入引导图。我们这里输入的引导图是一张梵高油画风格的猫,分辨率为

512x512

  • 2)在

提示词输入区

输入提示词。我们这里输入的提示词

cat, photo

是指示模型生成一张照片风格的猫。

  • 3)在

尺寸更新模式(Resize mode)

选择模式。我们这里选择使用

Just resize

模式。

  • 4)在

目标分辨率(Resize to)

设置生成目标图分辨率。这里设置为

512x768

  • 5)点击

生成(Generate)

按钮启动图生图任务。

  • 6)在

生成图预览和功能区

就可以等待生成的结果。

下面是

512x512

原图与我们分别使上面 4 种模式生成的

512x768

的新图:

原图


模式:Just resize


模式:Crop and resize


模式:Resize and fill


模式:Just resize(Latent upscale)

可以看到使用不同的模式,最终的生成图有不一样的效果。

4、采样设置

采样设置包括两个部分:

  • 4.1、采样方法(Sampling method)
  • 4.2、采样步数(Sampling steps)

采样设置功能与《文生图》一节中所讲内容一样,这里就不做过多介绍了。

5、目标分辨率(Resize)

目标分辨率(Resize)的设置包括下面几个部分:

  • 5.1、宽(Width)
  • 5.2、高(Height)
  • 5.3、缩放比例(Scale)

它们对应着设置分辨率的两种方式:

  • 1)设置目标生成图的宽和高。我们在上面介绍

尺寸更新模式(Resize mode)

时已经用过这个能力。

Resize to

  • 2)设置目标生成图的缩放比例。

Resize by

6、任务批次设置

任务批次设置包括两个参数:

  • 6.1、生成图片次数(Batch count)
  • 6.2、一次生成图片数量(Batch size)

相关功能与《文生图》一节中所讲内容一样,这里就不做过多介绍了。

7、提示词相关性(CFG Scale)

提示词相关性(CFG Scale)相关功能与《文生图》一节中所讲内容一样,这里就不做过多介绍了。

8、重绘幅度(Denoising strength)

重绘幅度(Denoising strength)表示的是生成图与输入图的相似度,取值范围是 0-1,数值越小与输入图越近似,数值越大则越接近提示词的引导效果。通常重绘幅度(Denoising strength)建议设置为

0.75

重绘幅度(Denoising strength)

我们来测试一下这个参数,我们使下图作为输入引导图,并输入提示词:

cat, photo


原图

当我们分别设置

重绘幅度(Denoising strength)

0.1

0.9

时,我们得到了如下生成结果:


重绘幅度 0.1

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号