问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

StyleGAN架构深度解析:从PGGAN到StyleGAN的技术演进

创作时间:
作者:
@小白创作中心

StyleGAN架构深度解析:从PGGAN到StyleGAN的技术演进

引用
CSDN
1.
https://blog.csdn.net/weixin_43135178/article/details/116331140

StyleGAN是深度学习领域中最具影响力的生成对抗网络(GAN)之一,它通过创新的架构设计,显著提升了生成图像的质量和多样性。本文将深入解析StyleGAN的核心架构和技术创新,帮助读者理解其如何通过风格映射和噪声控制实现高质量图像生成。

一、StyleGAN解决的问题

StyleGAN的前身——PGGAN

在探讨StyleGAN之前,我们先回顾一下它的前身ProGAN(Progressive GAN)。ProGAN通过逐级生成图片的方式,逐步提升图像分辨率,但这种方法存在一个显著缺陷:由于直接生成图片,模型无法明确控制每一级学到的特征,导致特征纠缠(feature entanglement)问题。这意味着调整输入时,往往会同时影响多个特征,缺乏对特定特征的精细控制能力。

StyleGAN的创新目标

为了解决上述问题,StyleGAN提出了一个核心目标:开发一种模型,能够精确控制生成图像的特定特征,如眼睛、嘴巴、鼻子等。具体来说,StyleGAN希望实现以下功能:

  • 在生成图片过程中,能够控制每一级的特征
  • 能够独立决定生成图片某些方面的表象
  • 减少不同特征之间的相互影响

二、StyleGAN模型架构

1.1 映射网络(Mapping Network)

StyleGAN的第一个重要创新是引入了映射网络(Mapping Network)。映射网络的主要作用是对隐藏空间(latent space)进行解耦,具体来说:

  • Latent Code的概念:Latent code是数据深层次关系的表示,通过解耦可以降低特征之间的关联性,提高模型的学习效率。
  • 映射网络的结构:由8个全连接层组成,输入是512维的向量z,输出是同样维度的中间向量w。
  • 解耦的目的:将输入向量编码为中间向量w,使得后续生成网络能够得到18个控制向量,每个控制向量可以独立控制不同的视觉特征。

为何需要映射网络?

如果不使用映射网络,直接使用输入向量生成控制向量,会导致特征纠缠问题。例如,调节8x8分辨率上的控制向量(假设控制人脸角度)时,可能会意外改变32x32分辨率上的控制内容(如肤色)。映射网络通过生成一个不完全遵循训练数据分布的向量,减少了特征之间的相关性。

1.2 样式模块(AdaIN)

StyleGAN的第二个关键创新是引入了样式模块(AdaIN,Adaptive Instance Normalization)。具体实现如下:

  • 控制向量的生成:中间向量w通过可学习的仿射变换(A)扩展为放缩因子ys,i与偏差因子yb,i。
  • 影响方式:在每个生成阶段(共9个阶段),在Upsample和Convolution之后各应用一次AdaIN,总共产生18个控制向量。
  • 效果:通过标准化抹去局部信息的可见性,使得w主要影响全局信息,而关键信息由上采样层和卷积层决定。

1.3 删除传统输入

StyleGAN的第三个创新是删除了生成器的初始输入,改用常量值。这样做的好处包括:

  • 降低生成异常照片的概率
  • 减少特征纠缠
  • 使网络更容易在不依赖纠缠输入向量的情况下学习

1.4 随机变化

为了增加生成图像的多样性和真实性,StyleGAN在AdaIN模块之前向每个通道添加缩放过的噪声。这种方法可以控制噪声仅影响图片样式上的细微变化,使生成的人脸更加逼真和多样化。

1.5 样式混合

StyleGAN采用混合正则化手段(AdaIN),在训练过程中使用两个随机潜码W,通过在合成网络中随机切换潜码来降低网络级别间的相关性。这种做法不仅有助于模型性能,还产生了一个有趣的副作用:能够以连贯的方式组合多个图像的特征。

1.6 截断技巧

截断技巧(Truncation Trick)用于处理训练数据中表现不佳的地方,避免生成较差的图像。具体做法是截断中间向量w,使其保持接近“平均”的中间向量w_avg。通过调整参数α,可以控制图像与“平均”图像的差异量。

1.7 超参数微调

StyleGAN还对网络超参数进行了更新,包括训练持续时间、损失函数等,并将图片最接近尺度的缩放方式替换为双线性采样。

最终网络结构对比

下面是StyleGAN和PGGAN的最终网络结构对比图:

StyleGAN:

PGGAN:

通过这些创新,StyleGAN不仅解决了PGGAN的特征纠缠问题,还显著提升了生成图像的质量和多样性,成为深度学习领域的重要里程碑。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号