生成数据能否帮助模型训练？最新研究揭示关键影响因素

创作时间:

作者:

@小白创作中心

生成数据能否帮助模型训练？最新研究揭示关键影响因素

引用

CSDN

https://blog.csdn.net/liangdaojun/article/details/138253385

在AI领域，生成模型生成的假数据是否能帮助模型训练？北京大学王奕森团队针对这一问题进行了深入研究。他们发现，在对比学习场景下，生成数据并不总是对表示学习有帮助，有时甚至会降低模型性能。这一发现为AI领域的数据扩充策略提供了新的视角和指导。

研究背景与方法

在AI领域，数据扩充（Data Inflation）是一个常见的问题，特别是在对比学习（如SimCLR、DINO、CLIP）等自监督学习场景中。为了研究生成数据对表示学习能力的影响，北京大学王奕森团队从理论和实验两方面进行了分析。

为了控制变量，研究团队确保生成模型和表示学习都只能使用同一个（无监督）真实数据集进行训练，避免了扩充数据本身带来的收益。他们主要探讨了两个关键因素：真实数据和生成数据的比例，以及训练策略的设计。

研究发现

研究发现，在对比学习场景下，生成数据并不总是对表示学习有帮助，在很多情况下甚至有害。例如，将DDPM生成的数据直接加入CIFAR-10训练，反而导致分类准确率下降超过1%。这一发现与前人的工作类似：用生成数据扩充ImageNet后，ResNet-50的分类准确率下降了2.69%。

真实数据与生成数据的比例

研究发现，真实数据与生成数据的混合比例在10：1附近时达到最优，也就是说，1个真实数据的“训练价值”约等于10个生成数据。这侧面说明了二者的差异。

训练策略的设计

研究团队还发现，在使用生成数据进行训练时，如果维持原有的训练参数，则模型几乎没有提升。相反，如果随着数据集的扩充，而相应降低模型训练所使用的数据增广的强度，则可以获得显著提升。这是因为数据扩充和数据增广都会提升数据多样性，但数据增广可能会改变图像的语义信息，当数据扩充提供了足够的数据时，便可以减弱数据增广。