问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

变分自编码器 VAE 超详解:从基本概念到模型架构

创作时间:
作者:
@小白创作中心

变分自编码器 VAE 超详解:从基本概念到模型架构

引用
CSDN
1.
https://blog.csdn.net/m0_56942491/article/details/136265500

变分自编码器(VAE)是一种强大的生成模型,它结合了概率图模型和深度学习的优势。本文将从基本概念出发,逐步深入讲解VAE的原理、模型架构以及关键技巧,帮助读者全面理解这一重要技术。

基本概念介绍

在开始讲解VAE之前,我们需要回顾一些基本概念:

  • 先验/后验概率,证据,似然估计,MAP/ML/贝叶斯估计:这些概念是理解VAE的基础,建议参考相关资料进行学习。
  • KL散度:用于衡量两个概率分布之间的差异,是VAE中一个重要的数学工具。

从 AutoEncoder 到 VAE

自编码器

自编码器是一种无监督学习的神经网络结构,其主要组成部分包括:

  • 编码器(Encoder):将输入数据映射到低维潜在空间,捕捉输入数据的重要特征。
  • 解码器(Decoder):将编码的潜在表示映射回原始输入空间,重构原始数据。

变分自编码器做出的改变

与自编码器相比,VAE的最大区别在于对潜在表示的处理方式:

  • 在自编码器中,潜在表示是一个固定值。
  • 在VAE中,潜在表示是一个概率分布,通常假设为正态分布。

这种改变使得VAE能够生成新的样本,而不仅仅是重构输入数据。

VAE 原理思路入门

我们想做什么

生成式模型的目标是学习数据的分布,从而能够生成新的样本。具体来说:

  1. 从数据样本集 {X1, …, Xn} 中学习数据分布 p(X)。
  2. 通过采样 p(X) 生成新的数据样本。

变分下界引入与推导

直接计算 p(X) 很难,因此引入变分下界(ELBO)作为近似解:

  1. 引入近似后验分布 q(z|x) 来近似真实后验分布 p(z|x)。
  2. 使用KL散度将 q(z|x) 与 p(z|x) 联系起来。
  3. 推导出 ELBO 的表达式:

$$
\log p(x) \geq \mathbb{E}_{z \sim q(z|x)}[\log p(x|z)] - \text{KL}[q(z|x) || p(z)]
$$

变分下界的理解

ELBO 由两部分组成:

  1. 重构项:期望值 $\mathbb{E}_{z \sim q(z|x)}[\log p(x|z)]$,表示重构的准确性。
  2. 正则化项:KL散度 $\text{KL}[q(z|x) || p(z)]$,表示潜在空间分布与先验分布的相似度。

VAE 模型架构介绍

根据潜在空间确定模型架构

VAE假设潜在空间 z 服从标准正态分布 N(0, I)。具体实现方式:

  1. 使用两个神经网络分别输出潜在空间的平均值 μ 和对数方差 log σ^2。
  2. 定义近似后验分布 q(z|x):

$$
q(z|x) = \mathcal{N}(z|\mu(x), \sigma^2(x)I)
$$

对模型架构进行调整

为了解决重构样本的比较问题,VAE采用一对一训练策略:

  1. 每个输入样本 x 都对应一个独立的潜在空间分布。
  2. 定义完整的损失函数:

$$
\mathcal{L}(\theta, \phi) = -\mathbb{E}_{z \sim q(z|x)}[\log p(x|z)] + \text{KL}[q(z|x) || p(z)]
$$

重参数技巧

为了解决采样过程不可导的问题,VAE引入重参数技巧:

  1. 引入噪声项 ε,使得 z = μ + εσ。
  2. 通过 ε 的采样来间接采样 z,从而实现梯度的反向传播。

VAE 模型总结

VAE通过引入概率分布和变分下界,实现了生成模型的能力。其核心创新在于:

  1. 将潜在表示从固定值变为概率分布。
  2. 使用重参数技巧解决采样不可导问题。
  3. 通过重构项和正则化项的平衡,实现模型的训练和优化。

VAE不仅能够生成新的样本,还能够通过调节潜在空间的分布,实现对生成过程的控制。这种灵活性使其在图像生成、数据增强等领域具有广泛的应用前景。

参考文献

[1] Kingma D P, Welling M. Auto-encoding variational bayes[J]. arXiv preprint arXiv:1312.6114, 2013.

[2] Doersch C. Tutorial on variational autoencoders[J]. arXiv preprint arXiv:1606.05908, 2016.

[3] 变分自编码器(一):原来是这么一回事 - 科学空间|Scientific Spaces

[4] 一个例子搞清楚(先验分布/后验分布/似然估计)_一个例子搞清楚(先验分布/后验分布/似然估计)-CSDN博客

[5] 直观解读KL散度的数学概念 - 简书 (jianshu.com)

[6] Kullback-Leibler Divergence Explained — Count Bayesie

[7] VAE变分自编码机详解——原理篇 - 知乎 (zhihu.com)

[8] 贝叶斯估计浅析 - xueliangliu - 博客园 (cnblogs.com)

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号