问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

StyleGAN架构深度解析：从映射网络到AdaIN模块的创新之旅

创作时间:

作者:

@小白创作中心

StyleGAN架构深度解析：从映射网络到AdaIN模块的创新之旅

引用

CSDN

1.

https://blog.csdn.net/weixin_43135178/article/details/116331140

StyleGAN是深度学习领域中一个重要的图像生成模型，它在生成逼真图像方面取得了显著的成就。本文将深入解析StyleGAN的架构设计，探讨其如何通过映射网络（Mapping Network）、自适应实例归一化（AdaIN）等创新技术，实现对生成图像的精细控制。

一、StyleGAN解决的问题

StyleGAN的前身——PGGAN

在深入探讨StyleGAN之前，我们先回顾一下它的前身ProGAN。ProGAN通过逐级生成图片的方式，虽然能够生成高分辨率的图像，但存在一个显著的缺陷：由于直接生成图片，缺乏对生成过程的控制，导致难以明确每一级学到的特征是什么。这种特征纠缠（feature entanglement）使得模型很难控制生成图像的特定特征，例如眼睛、嘴巴、鼻子等。

StyleGAN的创新思路

为了解决上述问题，StyleGAN引入了两个核心概念：风格（style）和噪声（noise）。风格用于控制人脸的姿态、身份特征等全局信息，而噪声则用于丰富图像的细节部分，如头发丝、皱纹、肤色等。这种分离式的处理方式，使得StyleGAN能够更精细地控制生成图像的各个方面。

二、StyleGAN模型架构

1.1 映射网络（Mapping Network）

映射网络是StyleGAN的一个重要创新。它的主要作用是对隐藏空间（latent space）进行解耦，将输入向量z转换为中间向量w。这个过程通过8个全连接层实现，输出的w与输入层（512×1）大小相同。

为什么要加入映射网络？

避免特征纠缠：如果不加入映射网络，后续得到的18个控制向量之间可能会存在特征纠缠的现象。例如，调节8×8分辨率上的控制向量（假设它控制人脸生成的角度）时，可能会发现32×32分辨率上的控制内容（如肤色）也被改变了。
学习特征解耦：通过映射网络，模型可以生成一个不必遵循训练数据分布的向量，从而减少特征之间的相关性。

1.2 样式模块（AdaIN）

StyleGAN的另一个重要创新是引入了自适应实例归一化（AdaIN）模块。生成器从4×4分辨率开始，逐步提升到1024×1024，共经历9个生成阶段。每个阶段都会受到两个控制向量的影响：一个在上采样后，另一个在卷积后。这些控制向量都是从中间向量w'通过仿射变换得到的。

具体来说，w'通过一个全连接层被转换为放缩因子ys,i和偏差因子yb,i。这两个因子与标准化后的卷积输出进行加权求和，从而实现对生成过程的控制。这种设计使得w'主要影响图片的全局信息，而保留生成人脸的关键信息由上采样层和卷积层来决定。

1.3 删除传统输入

StyleGAN取消了生成器初始输入的使用，转而采用常量值。这样做的好处包括：

降低异常图片生成概率：初始输入不当可能导致生成不正常的图片，而常量值可以避免这种情况。
减少特征纠缠：这有助于网络在只使用w'而不依赖于纠缠输入向量的情况下更容易学习。

1.4 随机变化

为了增加生成图像的多样性和真实性，StyleGAN在AdaIN模块之前向每个通道添加了一个缩放过的噪声。这种方法可以控制噪声仅影响图片样式上细微的变化，例如雀斑、发髻线的准确位置等。

1.5 样式混合

StyleGAN采用了一种称为“样式混合”的训练方法，即在训练过程中使用两个随机潜码w，而不是一个。具体来说，通过映射网络生成两个潜码z1和z2，得到相应的w1和w2，然后在网络的某个随机位置切换使用这两个潜码。

这种做法不仅有助于降低网络级别之间的相关性，还产生了一个有趣的副作用：能够以连贯的方式组合多个图像的特征。通过分析不同分辨率下的样式控制效果，可以大致推断出低分辨率的样式控制姿态、脸型等，而高分辨率的样式控制肤色、头发颜色等细节。

1.6 截断技巧

截断技巧（Truncation Trick）用于处理训练数据中表现不佳的地方。具体做法是截断中间向量w'，使其保持接近“平均”的中间向量w'avg。这可以通过计算多个随机输入的中间向量平均值来实现。

在生成新图像时，将w'转换为w'new = w'avg + ψ(w' - w'avg)，其中ψ的值定义了图像与“平均”图像的差异量。通过这种方式，可以控制每个级别上的特征值与平均特征值的差异量，从而生成更高质量的图像。

1.7 微调超参数

StyleGAN还对一些网络超参数进行了更新，例如训练持续时间和损失函数，并将图片最接近尺度的缩放方式替换为双线性采样。

三、总结

通过对比StyleGAN和PGGAN的网络结构图，我们可以更直观地理解StyleGAN的创新之处。

StyleGAN通过引入映射网络、AdaIN模块、随机噪声添加等创新技术，实现了对生成图像的精细控制。这种设计不仅提高了生成图像的质量，还为图像生成任务提供了更灵活的控制方式。

热门推荐

昆明公交新推90条观光线路，带你玩转春城网红景点

昆明公交新推90条观光线路，带你玩转春城网红景点

全国爱牙日教你如何通过饮食护齿

全国爱牙日教你如何通过饮食护齿

木糖醇口香糖：预防牙齿腐蚀的科学选择

木糖醇口香糖：预防牙齿腐蚀的科学选择

巴氏刷牙法：最科学的刷牙方式，让你远离蛀牙困扰

巴氏刷牙法：最科学的刷牙方式，让你远离蛀牙困扰

三文鱼：护牙界的隐藏神器

三文鱼：护牙界的隐藏神器

春节申遗成功！故宫、豫园灯会成热门打卡地

春节申遗成功！故宫、豫园灯会成热门打卡地

《鬼灭之刃》：传统与现代交织的动漫艺术新高度

《鬼灭之刃》：传统与现代交织的动漫艺术新高度

AlphaFold：破解蛋白质折叠难题的AI革命

AlphaFold：破解蛋白质折叠难题的AI革命

2025春晚黄鹤楼下的摇滚盛宴：OneRepublic表演揭秘

2025春晚黄鹤楼下的摇滚盛宴：OneRepublic表演揭秘

新年家宴必吃：30种创意羊肉饺子馅

新年家宴必吃：30种创意羊肉饺子馅

冬季养生必吃：羊肉饺子最佳搭配攻略

冬季养生必吃：羊肉饺子最佳搭配攻略

春节年夜饭：羊肉饺子馅完美搭配大揭秘！

春节年夜饭：羊肉饺子馅完美搭配大揭秘！

羊肉饺子馅料搭配大全：从选肉到包饺的完整指南

羊肉饺子馅料搭配大全：从选肉到包饺的完整指南

职场中的"move without"：如何成为快速响应的领导者？

职场中的"move without"：如何成为快速响应的领导者？

体验中国文化共迎甲辰新春驻华使馆外交官与留学生共同参加新春嘉年华活动

体验中国文化共迎甲辰新春驻华使馆外交官与留学生共同参加新春嘉年华活动

北京卢沟桥之旅：卢沟桥的狮子，数不清！

北京卢沟桥之旅：卢沟桥的狮子，数不清！

卢沟桥的传说与历史典故

卢沟桥的传说与历史典故

霍童古镇与金蛇头村：宁德双景，两日古韵之旅

霍童古镇与金蛇头村：宁德双景，两日古韵之旅

马拉松季，正确跑步姿势防大脚趾受伤

马拉松季，正确跑步姿势防大脚趾受伤

如何缓解大脚趾疼痛？医生推荐这些小妙招！

如何缓解大脚趾疼痛？医生推荐这些小妙招！

全日本华侨华人春晚：中华文化传承的新篇章

全日本华侨华人春晚：中华文化传承的新篇章

赵保乐领衔！2025全日本华侨华人春晚阵容曝光

赵保乐领衔！2025全日本华侨华人春晚阵容曝光

仙女山避暑攻略：逃离火炉重庆！

仙女山避暑攻略：逃离火炉重庆！

眼睛上眼皮肿是什么原因

眼睛上眼皮肿是什么原因

左眼上眼皮肿是什么原因引起的

左眼上眼皮肿是什么原因引起的

大众点评推荐：苏州AAAAA级景区打卡攻略

大众点评推荐：苏州AAAAA级景区打卡攻略

周末带娃打卡郑州洞林湖和黄河文化公园！

周末带娃打卡郑州洞林湖和黄河文化公园！

科技感十足！这9款神奇黑科技正悄然改变我们的生活！

科技感十足！这9款神奇黑科技正悄然改变我们的生活！

探访少林寺与嵩山的历史文化之旅

探访少林寺与嵩山的历史文化之旅

郑州周边最美景点大PK：双龙湾vs汉山，哪个更值得打卡？

郑州周边最美景点大PK：双龙湾vs汉山，哪个更值得打卡？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号