问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

GAN全新研究成果:模型大幅简化,逆袭扩散模型,AI社区疯传

创作时间:
作者:
@小白创作中心

GAN全新研究成果:模型大幅简化,逆袭扩散模型,AI社区疯传

引用
1
来源
1.
https://hub.baai.ac.cn/view/42589

2025年,生成对抗网络(GAN)能否击败扩散模型?答案是肯定的。

本周五,AI社区开始热议一种全新的极简主义GAN(生成对抗网络)。这项现代版GAN基准研究论文在HuggingFace上成为热度最高的研究,并入选了NeurIPS 2024。

与以往通过各种技巧来优化不同,这次的研究通过一场“现代化”改造,使得GAN能够进行更长时间的训练(与扩散模型的训练步骤数相当)。研究发现,一旦GAN训练时间足够长,并且架构足够强大,它们就能胜过扩散模型,并成为更好、更快、更小的模型。

来自布朗大学和康奈尔大学的研究者们表示,通过引入一个新的损失函数,可以解决以往GAN模式崩溃(collapse)和不稳定性的问题。

为了证明这一方法的可行性,研究团队以流行的StyleGAN2为测试对象,通过新的理论进行最简升级(修改后改名为“R3GAN”)。结果显示,虽然模型变得更简单了,但R3GAN在图像生成和数据增强任务上性能还是超过了所有GAN模型和扩散模型。

研究方法与创新

研究团队首先通过推导出一个行为良好的正则化相对GAN损失函数,解决了模式dropping和不收敛问题,而这些问题在以前经常是通过大量ad-hoc tricks来应对的。他们从数学层面分析了这一损失函数,并证明它具有局部收敛保证,这与大多数现有的相对损失函数不同。

其次,这个损失函数能够抛弃所有的ad-hoc tricks,并用现代版架构替代常见的GAN中所使用的过时的骨干网络。以StyleGAN2为例,他们展示了一个简化过的现代版路线图——R3GAN(Re-GAN)。尽管方法非常简单,但它在FFHQ、ImageNet、CIFAR和Stacked MNIST数据集上却超越了StyleGAN2,并且在与最先进的GAN和扩散模型的比较中表现出色。

实验结果

研究团队在多个数据集上对R3GAN进行了测试,包括StackedMNIST、FFHQ-256、FFHQ-64、CIFAR-10、ImageNet-32和ImageNet-64。实验结果表明,R3GAN在所有这些数据集上都取得了优异的性能,特别是在ImageNet-64数据集上,尽管模型参数量只有依赖于ADM骨干网络的扩散模型的三分之一,但在FID指标上仍然超越了这些更大的模型。


在ImageNet-64上使用配置E生成的样本定性示例

社区反响

这项新研究正在AI社区获得越来越多的关注。StabilityAI的研究总监也转发了该篇论文,并对作者团队去除StyleGAN中许多复杂性同时提高性能的做法给予了高度评价。

这项研究不仅展示了GAN在现代架构下的潜力,也为未来的研究奠定了一个更为简洁、可扩展的基础。随着这项研究的发布,GAN似乎正在重新起航,有可能在与扩散模型的竞争中取得优势。

论文链接:https://arxiv.org/abs/2501.05441

GitHub链接:https://github.com/brownvc/R3GAN

HuggingFace链接:https://huggingface.co/spaces/multimodalart/R3GAN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号