基于生成对抗网络的动漫人物图像合成技术详解
基于生成对抗网络的动漫人物图像合成技术详解
本文介绍了一种基于生成对抗网络(GAN)的动漫人物图像合成技术。该技术通过引入角色身份张量、条件噪声以及基于语义分割和边缘检测的鉴别器,实现了高质量的动漫人物图像生成。
基于生成对抗网络的动漫人物合成
效果展示
该技术能够根据语义图形生成不同的人物图像,相比其他方法具有更自然的色彩和更清晰的纹理。以下是部分生成效果展示:
相比其他方法,该技术生成的图像在背景和衣服的色彩上更加自然:
在纹理细节方面,如头发纹理,该技术也表现得更为出色:
此外,该技术还被应用到Unity开发的AI绘画软件中,用户可以通过绘制语义图像来生成真实的动漫人物图像。
项目信息
- 论文地址:https://bmvc2024.org/proceedings/508/
- 代码地址:https://github.com/hahahappyboy/Semantic-Image-Synthesis-of-Anime-Characters-Based-on-Conditional-Generative-Adversarial-Networks/tree/main
- 软件地址:https://blog.csdn.net/iiiiiiimp/article/details/129804794
技术原理
1. 角色身份张量
在训练过程中,将三维张量作为生成器的输入,以实现对任意角色的控制。具体来说,为每张训练图像标注人物身份,在每次迭代前根据人物身份选择对应的身份张量与语义图拼接后作为生成器的输入。这种设计让生成器能够学习到特定角色的身份特征。
为什么使用三维张量?
- 语义图是三维的,二维张量容易被网络忽略。
为什么角色身份张量初始为正态分布?
- 正态分布便于训练。
2. 条件噪声
为了解决不同动漫人物图像间色彩差异导致的生成图像色彩模糊问题,借鉴StyleGAN的噪声思想,将三维正态分布的噪声按通道乘以一组可学习的系数后添加到网络的特征图中。这种设计能够增强网络对色彩的拟合能力。值得注意的是,每个动漫角色都设置了单独的噪声和可学习的系数,以适应不同角色的外观色彩特征。
3. 基于语义分割和边缘检测的鉴别器
传统的基于分类的鉴别器更关注图像整体质量,而基于语义分割的鉴别器则关注局部区域的质量,两者都无法很好地关注细节纹理。因此,提出了基于语义分割和边缘检测的鉴别器,通过在鉴别器中引入边缘检测实现对边缘纹理的像素级监督。具体来说,在网络末端通过双分支结构同时输出语义图像和边缘图像,以增强对细节纹理的关注。
结语
这项技术不仅展示了人工智能在动漫图像生成领域的强大能力,也为二次元爱好者提供了一个将创意转化为现实的工具。通过结合角色身份张量、条件噪声和改进的鉴别器设计,该技术能够生成高质量、细节丰富的动漫人物图像,为动漫创作和AI艺术领域开辟了新的可能性。