问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

变分自编码器VAE超详解:从简单公式推导到模型结构到模型理解

创作时间:
作者:
@小白创作中心

变分自编码器VAE超详解:从简单公式推导到模型结构到模型理解

引用
CSDN
1.
https://blog.csdn.net/m0_56942491/article/details/136265500

变分自编码器(VAE)是一种强大的生成模型,它通过引入概率分布的概念,将传统的自编码器(AE)提升到了一个新的高度。本文将从基本概念出发,逐步深入讲解VAE的原理、架构和实现细节,帮助读者全面理解这一重要的深度学习模型。

基本概念介绍

在开始讲解VAE之前,我们需要回顾一些基本概念:

  • 先验/后验概率、似然估计、MAP/ML/贝叶斯估计:这些概念是理解VAE的基础,建议读者先阅读相关资料。
  • KL散度:KL散度是衡量两个概率分布差异的重要工具,理解KL散度对于理解VAE的损失函数至关重要。

从AutoEncoder到VAE

自编码器

自编码器是一种无监督学习的神经网络结构,它试图学习输入数据的紧凑表示(编码),然后通过解码器将该表示还原为输入数据。自编码器包括一个编码器网络和一个解码器网络。

  • 编码器:将输入数据映射到低维潜在空间,捕捉输入数据的重要特征。
  • 解码器:将编码的潜在表示映射回原始输入空间,重构原始数据。

变分自编码器做出的改变

VAE与自编码器最大的区别在于潜在表示。在自编码器中,潜在表示是一个固定值,而在VAE中,潜在表示是一个概率分布。具体来说,编码器不再只学习提取输入数据的编码信息,而是去学习获取输入数据的概率分布。在原始论文中,我们设定这一概率分布为正态分布,模型结构如下:

在VAE中,中间量我们不再叫潜在变量,而是称为潜在空间(也称潜在分布,隐变量等),并使用 Z 来表示,用来凸显其是一个变化的量。解码器要做的工作就是如何从这样的概率分布中采样并还原成最终的输出。

VAE原理思路入门

我们想做什么

生成式模型的目标是根据一批数据样本 {X1, …, Xn},得到X的分布p(X)。理想情况下,我们希望直接从简单的分布(如高斯分布)映射到p(X)。然而,直接计算p(X)几乎是不可能的,因此我们需要引入变分下界(ELBO)的概念。

变分下界引入与推导

VAE通过引入变分下界来解决计算p(X)的难题。具体来说,我们通过KL散度将近似后验分布q(z|x)与真实后验分布p(z|x)联系起来,得到ELBO:

$$
\log p(x) \geq \mathbb{E}_{z \sim q(z|x)}[\log p(x|z)] - \text{KL}[q(z|x) || p(z)]
$$

其中,第一项是重构项,第二项是正则化项。我们的目标是最大化ELBO,这等价于最小化重构误差和KL散度。

VAE模型架构介绍

根据潜在空间确定模型架构

VAE假设潜在空间Z的样本可以从简单的分布中抽取,即标准正态分布N(0, I)。编码器学习并输出潜在空间的平均值和标准差,得到潜在空间Z,然后再从潜在空间中采样,并进入解码器,解码器根据采样进行重构,重新生成样本。

对模型架构进行调整

为了克服直接比较生成样本和真实样本的困难,VAE采用了一种精妙的迂回方式。具体来说,VAE针对每一个样本都单独计算其独有的均值和标准差,构造属于其专有的潜在空间。损失函数可以进一步完善成:

$$
\mathcal{L}(\theta, \phi) = -\mathbb{E}{z \sim q{\phi}(z|x)}[\log p_{\theta}(x|z)] + \text{KL}[q_{\phi}(z|x) || p(z)]
$$

其中,θ 和 φ 分别是 Decoder 和 Encoder 模型参数。

重参数技巧

为了克服采样操作不可导的问题,VAE使用了重参数技巧。具体来说,我们引入噪声项ε,令ε=(z−μ)/σ,从而将原本从N(μ,σ^2)中采样得到z的操作转换成了从N(0,I)中采样一个ε,令z=μ+ε*σ。这样梯度计算可以通过μ和σ直接传递,而不再涉及对随机采样的梯度。

VAE模型总结

VAE的核心创新在于将潜在表示从确定值变为概率分布,这使得模型能够生成多样化的样本。通过引入变分下界和重参数技巧,VAE成功解决了生成模型中的关键问题。从这个角度来看,生成方差的那个神经网络又何尝不可以理解为对噪声大小的调节器呢?方差越大,采样的结果就会越分散,这就变相增加了重构的难度;方差越小,采样的结果就越集中,就会降低重构的难度。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号