问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

生成数据能否帮助模型训练?最新研究揭示关键影响因素

创作时间:
作者:
@小白创作中心

生成数据能否帮助模型训练?最新研究揭示关键影响因素

引用
CSDN
1.
https://blog.csdn.net/liangdaojun/article/details/138253385

在AI领域,生成模型生成的假数据是否能帮助模型训练?北京大学王奕森团队针对这一问题进行了深入研究。他们发现,在对比学习场景下,生成数据并不总是对表示学习有帮助,有时甚至会降低模型性能。这一发现为AI领域的数据扩充策略提供了新的视角和指导。

研究背景与方法

在AI领域,数据扩充(Data Inflation)是一个常见的问题,特别是在对比学习(如SimCLR、DINO、CLIP)等自监督学习场景中。为了研究生成数据对表示学习能力的影响,北京大学王奕森团队从理论和实验两方面进行了分析。

为了控制变量,研究团队确保生成模型和表示学习都只能使用同一个(无监督)真实数据集进行训练,避免了扩充数据本身带来的收益。他们主要探讨了两个关键因素:真实数据和生成数据的比例,以及训练策略的设计。

研究发现

研究发现,在对比学习场景下,生成数据并不总是对表示学习有帮助,在很多情况下甚至有害。例如,将DDPM生成的数据直接加入CIFAR-10训练,反而导致分类准确率下降超过1%。这一发现与前人的工作类似:用生成数据扩充ImageNet后,ResNet-50的分类准确率下降了2.69%。

真实数据与生成数据的比例

研究发现,真实数据与生成数据的混合比例在10:1附近时达到最优,也就是说,1个真实数据的“训练价值”约等于10个生成数据。这侧面说明了二者的差异。

训练策略的设计

研究团队还发现,在使用生成数据进行训练时,如果维持原有的训练参数,则模型几乎没有提升。相反,如果随着数据集的扩充,而相应降低模型训练所使用的数据增广的强度,则可以获得显著提升。这是因为数据扩充和数据增广都会提升数据多样性,但数据增广可能会改变图像的语义信息,当数据扩充提供了足够的数据时,便可以减弱数据增广。

结论

这项研究为AI领域的数据扩充策略提供了新的视角和指导。研究发现,生成数据并不总是有益的,有时甚至会降低模型性能。因此,在使用生成数据进行训练时,需要谨慎设计训练策略,特别是在数据比例和数据增广强度方面。

论文信息:

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号