GAN全新研究成果:模型大幅简化,逆袭扩散模型,AI社区疯传
GAN全新研究成果:模型大幅简化,逆袭扩散模型,AI社区疯传
2025年,生成对抗网络(GAN)能否击败扩散模型?答案是肯定的。
本周五,AI社区开始热议一种全新的极简主义GAN(生成对抗网络)。这项现代版GAN基准研究论文在HuggingFace上成为热度最高的研究,并入选了NeurIPS 2024。
与以往通过各种技巧来优化不同,这次的研究通过一场“现代化”改造,使得GAN能够进行更长时间的训练(与扩散模型的训练步骤数相当)。研究发现,一旦GAN训练时间足够长,并且架构足够强大,它们就能胜过扩散模型,并成为更好、更快、更小的模型。
来自布朗大学和康奈尔大学的研究者们表示,通过引入一个新的损失函数,可以解决以往GAN模式崩溃(collapse)和不稳定性的问题。
为了证明这一方法的可行性,研究团队以流行的StyleGAN2为测试对象,通过新的理论进行最简升级(修改后改名为“R3GAN”)。结果显示,虽然模型变得更简单了,但R3GAN在图像生成和数据增强任务上性能还是超过了所有GAN模型和扩散模型。
研究方法与创新
研究团队首先通过推导出一个行为良好的正则化相对GAN损失函数,解决了模式dropping和不收敛问题,而这些问题在以前经常是通过大量ad-hoc tricks来应对的。他们从数学层面分析了这一损失函数,并证明它具有局部收敛保证,这与大多数现有的相对损失函数不同。
其次,这个损失函数能够抛弃所有的ad-hoc tricks,并用现代版架构替代常见的GAN中所使用的过时的骨干网络。以StyleGAN2为例,他们展示了一个简化过的现代版路线图——R3GAN(Re-GAN)。尽管方法非常简单,但它在FFHQ、ImageNet、CIFAR和Stacked MNIST数据集上却超越了StyleGAN2,并且在与最先进的GAN和扩散模型的比较中表现出色。
实验结果
研究团队在多个数据集上对R3GAN进行了测试,包括StackedMNIST、FFHQ-256、FFHQ-64、CIFAR-10、ImageNet-32和ImageNet-64。实验结果表明,R3GAN在所有这些数据集上都取得了优异的性能,特别是在ImageNet-64数据集上,尽管模型参数量只有依赖于ADM骨干网络的扩散模型的三分之一,但在FID指标上仍然超越了这些更大的模型。
在ImageNet-64上使用配置E生成的样本定性示例
社区反响
这项新研究正在AI社区获得越来越多的关注。StabilityAI的研究总监也转发了该篇论文,并对作者团队去除StyleGAN中许多复杂性同时提高性能的做法给予了高度评价。
这项研究不仅展示了GAN在现代架构下的潜力,也为未来的研究奠定了一个更为简洁、可扩展的基础。随着这项研究的发布,GAN似乎正在重新起航,有可能在与扩散模型的竞争中取得优势。
论文链接:https://arxiv.org/abs/2501.05441
GitHub链接:https://github.com/brownvc/R3GAN
HuggingFace链接:https://huggingface.co/spaces/multimodalart/R3GAN