问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

10分钟读懂Diffusion：图解Diffusion扩散模型

创作时间:

作者:

@小白创作中心

10分钟读懂Diffusion：图解Diffusion扩散模型

引用

CSDN

1.

https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/134979539

Diffusion模型是当前图像生成领域的重要技术之一，其通过逐步添加和去除噪声来生成逼真的图像。本文将通过图解方式，帮助读者快速理解Diffusion模型的工作原理，包括文字生成图片的整体结构、CLIP模型生成文字embedding的过程、UNet网络的使用，以及Diffusion模型的训练过程等。

Diffusion文字生成图片——整体结构

1.1 整个生成过程

在使用Diffusion模型生成图片时，需要将文字转换为模型可处理的输入形式。具体来说，Diffusion模型会使用Text Encoder生成文字对应的embedding（通常使用CLIP模型），然后将这个embedding与随机噪声embedding和time step embedding一起作为Diffusion模型的输入，最终生成理想的图片。

上图展示了完整的Diffusion生成过程：token embedding、随机噪声embedding、time embedding一起输入diffusion。

更详细的结构图如下：

可以看到中间的Image Information Creator是由多个UNet模型组合而成的。

1.2 使用CLIP模型生成输入文字embedding

CLIP模型是在图像及其描述的数据集上进行训练的。其训练过程可以简化为：首先分别使用图像和文本编码器对它们进行编码，然后使用余弦相似度来衡量是否匹配。通过在训练集上训练模型，最终得到文字的embedding和图片的embedding。

1.3 UNet网络中如何使用文字embedding

在UNet网络中，会在每个ResNet之间添加一个Attention模块，而Attention模块的一端输入便是文字embedding。

扩散模型Diffusion

2.1 扩散模型Diffusion的训练过程

Diffusion模型的训练可以分为两个部分：

前向扩散过程（Forward Diffusion Process）：不断往输入图片中添加高斯噪声。
反向扩散过程（Reverse Diffusion Process）：将噪声不断还原为原始图片。

2.2 前向扩散过程

前向扩散过程是不断往输入图片中添加高斯噪声。

2.3 反向扩散过程

反向扩散过程是将噪声不断还原为原始图片。

2.4 训练过程

在每一轮的训练过程中，包含以下内容：

每一个训练样本选择一个随机时间步长t。
将time step t对应的高斯噪声应用到图片中。
将time step转化为对应embedding。

下面是每一轮详细的训练过程：

2.5 从高斯噪声中生成原始图片（反向扩散过程）

上图展示了从高斯噪声到最终清晰图片的反向扩散过程。

补充说明

补充1：UNet模型结构

UNet模型结构包含Downsample、Middle block和Upsample三个部分，其中每个部分都包含了ResNet残差网络。

补充2：Diffusion模型的缺点及改进版——Stable Diffusion

Diffusion模型的缺点是在反向扩散过程中需要把完整尺寸的图片输入到U-Net，这使得当图片尺寸以及time step t足够大时，Diffusion会变得非常慢。Stable Diffusion就是为了解决这一问题而提出的改进版本。

补充3：UNet网络同时输入文字embedding

在第2节介绍Diffusion原理的时候，为了方便，都是没有把输入文字embedding加进来，只用了time embedding和随机高斯噪声，怎么把文字embedding也加进来可以参考前面的1.3节。

补充4：DDPM为什么要引入时间步长t

引入时间步长t是为了模拟一个随时间逐渐增强的扰动过程。每个时间步长t代表一个扰动过程，从初始状态开始，通过多次应用噪声来逐渐改变图像的分布。因此，较小的t代表较弱的噪声扰动，而较大的t代表更强的噪声扰动。

补充5：为什么训练过程中每一次引入的是随机时间步长t

在训练过程中，如果时间步长是递增的，那么必然会使得模型过多的关注较早的时间步长（因为早期loss大），而忽略了较晚的时间步长信息。因此，采用随机时间步长可以更均衡地优化模型在不同时间步长的表现。

热门推荐

蓝宝石葡萄种植管理技术

蓝宝石葡萄种植管理技术

生抽和老抽的区别：厨房调味高手必知的秘密

生抽和老抽的区别：厨房调味高手必知的秘密

如何应对恶意投诉与诬告

如何应对恶意投诉与诬告

如何从上海到达崇明？这些交通方式如何选择以节省时间和成本？

如何从上海到达崇明？这些交通方式如何选择以节省时间和成本？

劳动诉讼举证责任与费用标准详解

劳动诉讼举证责任与费用标准详解

B端设计：表格设计-表格美观，系统也就不会差。

B端设计：表格设计-表格美观，系统也就不会差。

如何分析美元汇率对黄金价值的影响？这种影响如何进行了解和应对？

如何分析美元汇率对黄金价值的影响？这种影响如何进行了解和应对？

盘点古希腊神话史品析《神魔圣域》世界观起源

盘点古希腊神话史品析《神魔圣域》世界观起源

小日记，大学问——防治偏头痛，从头痛日记开始

小日记，大学问——防治偏头痛，从头痛日记开始

2026考研择校标准：多维度考量，精准选择

2026考研择校标准：多维度考量，精准选择

年过60还能吃核桃吗？最新研究揭示：3种坚果最好少吃

年过60还能吃核桃吗？最新研究揭示：3种坚果最好少吃

核桃的正确吃法：健康养生从细节开始

核桃的正确吃法：健康养生从细节开始

Windows 无法访问指定设备、路径或文件的提示解决方法

Windows 无法访问指定设备、路径或文件的提示解决方法

甘蔗是糖尿病的天然克星？糖尿病患者能不能吃甘蔗？一次讲清

甘蔗是糖尿病的天然克星？糖尿病患者能不能吃甘蔗？一次讲清

甘蔗吃多了会得糖尿病吗？一天吃多少合适？

甘蔗吃多了会得糖尿病吗？一天吃多少合适？

日本旅游三年多次签证怎么申请？申请条件是什么？

日本旅游三年多次签证怎么申请？申请条件是什么？

甲午战争里的晚清陆军，真的连挨骂的资格都没有吗？

甲午战争里的晚清陆军，真的连挨骂的资格都没有吗？

去了一趟越南，被震撼了三观，越南人的生活，让我眼界大开

去了一趟越南，被震撼了三观，越南人的生活，让我眼界大开

如何科学施肥，让番茄更健康？（番茄肥料种类有哪些？如何合理施肥？）

如何科学施肥，让番茄更健康？（番茄肥料种类有哪些？如何合理施肥？）

电池建模：OCV电压与SOC拟合详解

电池建模：OCV电压与SOC拟合详解

深入探索秃子悖论：揭示心理与现实的冲突

深入探索秃子悖论：揭示心理与现实的冲突

网络的救命稻草：重传机制如何确保数据顺利传输？

网络的救命稻草：重传机制如何确保数据顺利传输？

艺术与乡村改造碰撞看空心村如何实现活化生长？

艺术与乡村改造碰撞看空心村如何实现活化生长？

矮光村：从“空心村”到国家3A景区的华丽蝶变

矮光村：从“空心村”到国家3A景区的华丽蝶变

存货周转率最佳范围：企业管理者必看指南

存货周转率最佳范围：企业管理者必看指南

什么是PDCA循环？定义、阶段、缺点、最佳实践（以内容营销为例）

什么是PDCA循环？定义、阶段、缺点、最佳实践（以内容营销为例）

沈阳申请美国签证全攻略：办理流程、材料、预约指南

沈阳申请美国签证全攻略：办理流程、材料、预约指南

如何评估患者的肝功能？常用检测指标一览

如何评估患者的肝功能？常用检测指标一览

上海是精英的“战场”，香山是精英的故乡！“香山文化与海派文化交流活动”在沪举行

上海是精英的“战场”，香山是精英的故乡！“香山文化与海派文化交流活动”在沪举行

五言古诗的创作艺术，从入门到精通

五言古诗的创作艺术，从入门到精通

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号