资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

扩散模型（Diffusion Model）原理讲解数学公式推导简洁易懂版

创作时间:

作者:

@小白创作中心

扩散模型（Diffusion Model）原理讲解数学公式推导简洁易懂版

引用

CSDN

https://blog.csdn.net/m0_63933060/article/details/144009661

什么是扩散模型？

每接触一个新的模型都会问的问题，GPT的解释是这样的：

Diffusion Model 是近年来在生成式建模领域取得显著进展的一类概率模型，主要用于生成高质量的样本，比如图像、音频、视频等数据类型。它基于对数据分布的逐步逼近与还原，结合了理论上的优雅性和实际应用的高性能。

其核心思想是通过一系列逐步增加噪声的过程将数据分布转换成一个简单的先验分布（如高斯分布），再训练一个模型来逆转这个过程，即从噪声中逐渐恢复出原始的数据分布。

扩散模型的训练目标通常是优化一个损失函数，这个损失函数衡量的是模型预测的噪声与实际添加的噪声之间的差异。训练过程中，模型学习到的是如何从噪声数据中恢复出原始数据的方法，因此能够用于生成新的数据样本。

可以理解为模拟的是一个正向扩散过程和反向生成过程。在正向过程中，是将噪声逐步加入到数据中，最终转化为近似高斯分布的情况；在反向过程中，是从纯噪声逐步还原数据，直到生成近似真实样本的结果。

公式推导

前向过程

αt=1−βt
这里的β会逐渐变大，从0.0001到0.002，对应的α就会逐渐变小，在代码中是直接在这个范围内等间隔采样，随着迭代次数的增加，β增大。

xt=αtxt−1+1−αtzt（1）
这个式子描述前向过程中由xt−1得xt。可以看到在开始时候，只加一点噪声，后来越加越多，直到近似成为全噪声的图像。

现在需要解决的问题：对于整个序列，一个一个计算太费事，对任意时刻的Xt能不能直接由X0计算得来？

xt−1=αt−1xt−2+1−αt−1zt（2）
将这个（2）式带入（1）式，有：

xt=αt(αt−1xt−2+1−αt−1zt2)+1−αtzt1（3）

目前已知的是每次加入的噪声z1,z2等都服从高斯分布N(0,I)

将（3）式展开：

xt=αtαt−1xt−2+(αt(1−αt−1)zt2+1−αtzt1）（4）

xt=αtαt−1xt−2+1−αtαt−1z（5）

已知（4）中的z1，z2分别服从N(0,1−αt)，N(0,at(1−αt−1))。

有性质N(0,σ12I)+N(0,σ22I)∼N(0,(σ12+σ22)I)，所以（5）式中的z的方差是1−αt+at(1−αt−1)=1−αtαt−1

观察（5）式，可以发现xt和xt−2的关系可以迭代推广，一直迭代到x0，得到：

xt=αtx0+1−αtzt（其中αt指的是累乘，就是αt∗αt−1∗αt−2∗∗α1）（6）

上面的式子说明对于扩散模型的前向过程，可根据x0直接得到任意时刻的分布。到此，前向过程可以进行。

反向过程

根据上面的逆向图例，要根据XT求XT−1，就需要知道q(xT−1∣xT)

有贝叶斯公式可知，q(xT−1∣xT)=q(xT∣xT−1)q(xT−1)q(xT)

结合正向过程中的x0，有q(xt−1∣xt,x0)=q(xt∣xt−1,x0)q(xt−1∣x0)q(xt∣x0)

上式左侧的三个部分都可求，对应的q(xt−1∣xt,x0)也可求。

q(xt−1∣x0)a‾t−1x0+1−a‾t−1z∼N(a‾t−1x0,1−a‾t−1)

q(xt∣x0)a‾tx0+1−a‾tz∼N(a‾tx0,1−a‾t)

q(xt∣xt−1,x0)atxt−1+1−atz∼N(atxt−1,1−at)

上面第一个式子可以理解为直接根据x0求xt−1，第二个式子是直接根据x0求xt，直接套用上面的公式（6）即可，而对第三个单纯就是式子（1）。

已知对于高斯分布N(μ,σ)，有概率密度函数p(x)=12πσe−(x−μ)22σ2

即N(μ,σ)∝e−(x−μ)22σ2，可以根据上面部分的高斯分布得到我们要求解的q(xT−1∣xT)正比的形式。

q(xt−1∣xt,x0)∝exp(−12((xt−αtxt−1)2βt+(xt−1−αˉt−1x0)21−αˉt−1−(xt−αˉtx0)21−αˉt))

根据对应关系，可以看到上面图片中的红色部分括号中对应分布的方差。又因为在最原始的模型中，αt和βt都是固定已知的，所以方差已知。上图中蓝色部分对应可以求解均值，求出的均值：

μ~t(xt,x0)=αt(1−αˉt−1)1−αˉtxt+αˉt−1βt1−αˉtx0

但是目前存在的问题：X0就是要反向过程要求解的状态。

这个时候正向过程的（6）式就可以拿来替换了，由（6）式得到x0=1αˉt(xt−1−αˉtzt)

最终结果：μ~t=1at(xt−βt1−a‾tz)

目前已知方差和均值，可以将反向的过程一步一步进行下去了。

但是目前又出现问题：上式中的zt用数学方法始终没办法求，所以只能借助于模型训练，通过模型预测在某时刻t的噪声。（ps：一顿操作猛如虎，最后还是需要神经网络出手 -_-）

模型训练

上面提到了，其实就是对每一步的噪声进行拟合，模型的训练需要标签，在扩散模型中，正向过程加噪的过程中，自己加入的噪声肯定是已知的。那么在反向的过程中，关注模型预测出来的噪声和原来加入的噪声之间的差异，尝试最小化两者之间差异就可以进行训练。

算法解读

训练阶段

#2对于某一个特定的分布q(x0)，在该分布中进行采样（大致可以理解为，比如全是猫的数据集，全是狗的数据集，在这个特定的数据集里面进行采样得到x0）

#3对应的t是在1到T这个范围内随机选的。在同一个batch中，每个图片对应的t也不一致

#4前提：噪声需要服从标准正态分布

#5模型的训练，其中是指要训练的模型，模型的输入就是图中框出来的部分，也就是XT，模型的输入同时还包含 t，就是把时刻也输入到了模型中，在实际操作中，会根据 t 生成一个向量（正弦位置嵌入），作为轮数的编码。用模型预测值不断拟合真实值，通过Unet这个框架学习到噪音的信息。

采样阶段

#1xT 是随机采样的，看作高斯分布

#2#3#4#5做循环，从 xT 一直循环到 x_1，逐步从全噪音图还原成想要的图片。使用的是推导的公式，配合已经训练的模型，可以实现想要的效果。

#6得到最终的x0

热门推荐

风暴潮：成因、危害与应对

从面部到睡眠：腺样体面容的全方位自测法

如何在恋爱中成为对方的依靠？

中医药治疗慢性心衰科研成果引俄罗斯医学界瞩目

校园健康食谱：低升糖食物大揭秘

辅道驾驶技巧，你get了吗？

网易云音乐自动续费取消指南：客户端、微信等四种渠道

草书学习必备：《草诀百韵歌》中的字形辨析与连写技巧

咖啡保质期真相：三年前的咖啡可能已变质

从几千元到几十万，黄泥村豆腐产业带动村民增收

从香辣到黑椒：四种创意杏鲍菇炒法详解

梁永安：毕业生可考虑“啃老”两年，进行人生探索

科学处理剩饭剩菜，让餐桌既安全又丰盛

反流性食管炎饮食指南：6大原则+4种轻食食谱，科学管理病情

系统性整体护理提升反流性食管炎治疗效果

短效降压药卡托普利：急救有效，不宜长期服用

运动排石并非人人适用，肾结石患者需满足3个条件

眼药膏开封后到底能用多久？专家：超过这个时间就别用了

常见眼药膏使用指南：从分类到注意事项全解析

Soul App创新“搭子社交”模式，满足年轻人轻量社交需求

冬季警惕腮腺炎：从症状识别到科学防治

成都最著名的山峰，既是世界遗产和5A级景区，还是道教发源地

一文读懂劳动合同：三种类型的特点与选择

乙型肝炎筛查，你做对了吗？

顺义肉鸽养殖：智能化管理让国王鸽、白玉鸽产量翻番

伤感爱情文案刷屏双十一，简短文字引发情感共鸣

中国文创设计实践的发展历程及趋势分析

王子不再救公主：后现代主义视角下的白雪公主新解

《剑仙归来骑驴上学》：一场穿越时空的情感之旅

负能量音乐：一把双刃剑

扩散模型（Diffusion Model）原理讲解 数学公式推导 简洁易懂版

扩散模型（Diffusion Model）原理讲解 数学公式推导 简洁易懂版

什么是扩散模型？

公式推导

前向过程

反向过程

模型训练

算法解读

训练阶段

采样阶段

扩散模型（Diffusion Model）原理讲解数学公式推导简洁易懂版

扩散模型（Diffusion Model）原理讲解数学公式推导简洁易懂版