问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

StyleGAN架构深度解析:从映射网络到AdaIN模块的创新之旅

创作时间:
作者:
@小白创作中心

StyleGAN架构深度解析:从映射网络到AdaIN模块的创新之旅

引用
CSDN
1.
https://blog.csdn.net/weixin_43135178/article/details/116331140

StyleGAN是深度学习领域中一个重要的图像生成模型,它在生成逼真图像方面取得了显著的成就。本文将深入解析StyleGAN的架构设计,探讨其如何通过映射网络(Mapping Network)、自适应实例归一化(AdaIN)等创新技术,实现对生成图像的精细控制。

一、StyleGAN解决的问题

StyleGAN的前身——PGGAN

在深入探讨StyleGAN之前,我们先回顾一下它的前身ProGAN。ProGAN通过逐级生成图片的方式,虽然能够生成高分辨率的图像,但存在一个显著的缺陷:由于直接生成图片,缺乏对生成过程的控制,导致难以明确每一级学到的特征是什么。这种特征纠缠(feature entanglement)使得模型很难控制生成图像的特定特征,例如眼睛、嘴巴、鼻子等。

StyleGAN的创新思路

为了解决上述问题,StyleGAN引入了两个核心概念:风格(style)和噪声(noise)。风格用于控制人脸的姿态、身份特征等全局信息,而噪声则用于丰富图像的细节部分,如头发丝、皱纹、肤色等。这种分离式的处理方式,使得StyleGAN能够更精细地控制生成图像的各个方面。

二、StyleGAN模型架构

1.1 映射网络(Mapping Network)

映射网络是StyleGAN的一个重要创新。它的主要作用是对隐藏空间(latent space)进行解耦,将输入向量z转换为中间向量w。这个过程通过8个全连接层实现,输出的w与输入层(512×1)大小相同。

为什么要加入映射网络?

  • 避免特征纠缠:如果不加入映射网络,后续得到的18个控制向量之间可能会存在特征纠缠的现象。例如,调节8×8分辨率上的控制向量(假设它控制人脸生成的角度)时,可能会发现32×32分辨率上的控制内容(如肤色)也被改变了。
  • 学习特征解耦:通过映射网络,模型可以生成一个不必遵循训练数据分布的向量,从而减少特征之间的相关性。

1.2 样式模块(AdaIN)

StyleGAN的另一个重要创新是引入了自适应实例归一化(AdaIN)模块。生成器从4×4分辨率开始,逐步提升到1024×1024,共经历9个生成阶段。每个阶段都会受到两个控制向量的影响:一个在上采样后,另一个在卷积后。这些控制向量都是从中间向量w'通过仿射变换得到的。

具体来说,w'通过一个全连接层被转换为放缩因子ys,i和偏差因子yb,i。这两个因子与标准化后的卷积输出进行加权求和,从而实现对生成过程的控制。这种设计使得w'主要影响图片的全局信息,而保留生成人脸的关键信息由上采样层和卷积层来决定。

1.3 删除传统输入

StyleGAN取消了生成器初始输入的使用,转而采用常量值。这样做的好处包括:

  • 降低异常图片生成概率:初始输入不当可能导致生成不正常的图片,而常量值可以避免这种情况。
  • 减少特征纠缠:这有助于网络在只使用w'而不依赖于纠缠输入向量的情况下更容易学习。

1.4 随机变化

为了增加生成图像的多样性和真实性,StyleGAN在AdaIN模块之前向每个通道添加了一个缩放过的噪声。这种方法可以控制噪声仅影响图片样式上细微的变化,例如雀斑、发髻线的准确位置等。

1.5 样式混合

StyleGAN采用了一种称为“样式混合”的训练方法,即在训练过程中使用两个随机潜码w,而不是一个。具体来说,通过映射网络生成两个潜码z1和z2,得到相应的w1和w2,然后在网络的某个随机位置切换使用这两个潜码。

这种做法不仅有助于降低网络级别之间的相关性,还产生了一个有趣的副作用:能够以连贯的方式组合多个图像的特征。通过分析不同分辨率下的样式控制效果,可以大致推断出低分辨率的样式控制姿态、脸型等,而高分辨率的样式控制肤色、头发颜色等细节。

1.6 截断技巧

截断技巧(Truncation Trick)用于处理训练数据中表现不佳的地方。具体做法是截断中间向量w',使其保持接近“平均”的中间向量w'avg。这可以通过计算多个随机输入的中间向量平均值来实现。

在生成新图像时,将w'转换为w'new = w'avg + ψ(w' - w'avg),其中ψ的值定义了图像与“平均”图像的差异量。通过这种方式,可以控制每个级别上的特征值与平均特征值的差异量,从而生成更高质量的图像。

1.7 微调超参数

StyleGAN还对一些网络超参数进行了更新,例如训练持续时间和损失函数,并将图片最接近尺度的缩放方式替换为双线性采样。

三、总结

通过对比StyleGAN和PGGAN的网络结构图,我们可以更直观地理解StyleGAN的创新之处。


StyleGAN通过引入映射网络、AdaIN模块、随机噪声添加等创新技术,实现了对生成图像的精细控制。这种设计不仅提高了生成图像的质量,还为图像生成任务提供了更灵活的控制方式。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号