深入解析Stable Diffusion：从文本到图像的生成奥秘

创作时间:

作者:

@小白创作中心

深入解析Stable Diffusion：从文本到图像的生成奥秘

引用

CSDN

https://blog.csdn.net/z19981/article/details/145457429

Stable Diffusion是一种先进的文本到图像生成模型，能够将文字描述转化为高分辨率的图像。本文将深入解析Stable Diffusion的工作原理，帮助读者理解其内部机制，并通过Diffusion Explainer工具进行可视化学习。

什么是Stable Diffusion？

Stable Diffusion是一种文本到图像的模型，能够将文本提示转化为高分辨率图像。例如，如果你输入“a cute and adorable bunny”，Stable Diffusion会在几秒钟内生成描绘这一内容的高分辨率图像——一只可爱的小兔子。点击Diffusion Explainer中的“Select another prompt”可以更改提示，并查看每个提示生成的有趣图像！

Stable Diffusion是如何工作的？

Stable Diffusion首先将文本提示转换为文本表示，即用数值概括提示内容。文本表示用于生成图像表示，图像表示则概括了文本提示中描述的图像。然后，图像表示会被放大为高分辨率图像。

你可能会好奇，为什么Stable Diffusion要引入图像表示，而不是直接生成高分辨率图像。原因是计算效率。在紧凑的图像表示上进行大部分计算，而不是在高分辨率图像上，可以显著减少计算时间和成本，同时保持高图像质量。

图像表示最初是随机噪声，经过多个时间步的细化，最终生成与文本提示高度一致的高质量图像表示。细化时间步的数量通常设置为50或100；在Diffusion Explainer中，我们将其固定为50。

我们将Stable Diffusion的图像生成过程分解为三个主要步骤：

文本表示生成
图像表示细化
图像放大

现在，让我们更详细地了解每个过程。

文本表示生成（Text Representation Generation）

点击“文本表示生成”可以查看文本提示如何被转换为文本表示，即概括提示内容的向量。它包含两个步骤：分词和文本编码。

1. 分词（Tokenizing）

分词是处理文本数据的常见方法，将文本转换为数字并用神经网络处理。

Stable Diffusion将文本提示分词为一系列标记。例如，它将文本提示“a cute and adorable bunny”分解为标记：a、cute、and、adorable、bunny。此外，为了标记提示的开始和结束，Stable Diffusion在标记序列的开头和结尾添加了和标记。上述示例的最终标记序列为：，a，cute，and，adorable，bunny，。

为了便于计算，Stable Diffusion通过填充或截断使任何文本提示的标记序列长度保持为77。如果输入提示的标记少于77个，则在序列末尾添加标记，直到达到77个标记。如果输入提示的标记超过77个，则保留前77个标记，其余部分被截断。长度77是为了平衡性能和计算效率而设定的。

2. 文本编码

Stable Diffusion将标记序列转换为文本表示。为了使用文本表示来指导图像生成，Stable Diffusion确保文本表示包含与提示中描述的图像相关的信息。这是通过一种称为CLIP的特殊神经网络实现的。

CLIP由图像编码器和文本编码器组成，经过训练可以将图像及其文本描述编码为彼此相似的向量。因此，CLIP的文本编码器计算的提示文本表示很可能包含与提示中描述的图像相关的信息。你可以点击上方的“文本编码器”显示可视化解释。

图像表示细化（Image Representation Refining）

Stable Diffusion生成图像表示，即用数值概括文本提示中描述的高分辨率图像的向量。这是通过在多个时间步上细化随机初始化的噪声来实现的，从而逐步提高图像质量和对提示的贴合度。你可以通过调整Diffusion Explainer中的种子来更改初始随机噪声。点击“图像表示细化器”可以可视化每个细化步骤，包括噪声预测和去除。