自适应参数化激活函数APA:统一多种激活函数,提升平衡与不平衡学习性能
自适应参数化激活函数APA:统一多种激活函数,提升平衡与不平衡学习性能
近年来,深度学习在图像识别领域取得了显著进展,这主要得益于大规模数据集的使用、模型架构的改进、学习算法的创新、激活层的多样化以及归一化技术的优化。在这篇文章中,我们将详细介绍一项新的研究成果——自适应参数化激活函数(Adaptive Parametric Activation, APA),该研究成果由来自华为诺亚方舟实验室、英国利物浦大学和伦敦国王学院的科研人员共同完成。APA函数通过统一大多数常见的激活函数,在平衡和不平衡学习任务中均表现出色,显著提升了模型性能。
动机
在深度学习模型中,激活函数的选择对模型的优化至关重要,但最优选择仍不明确。例如,Sigmoid激活函数在平衡分类任务中是默认选择,但在不平衡分类任务中则表现出对频繁类别的偏置,导致性能下降。这一现象促使本文深入探索激活函数与数据分布之间的关系。
通过统计分析和实验验证,本文发现:
- 分类层中的激活函数:在平衡学习中,分类logits与Logistic分布对齐较好;而在不平衡学习中,它们则与Gumbel分布对齐更好。
- 中间层中的激活函数:在平衡学习中,通道注意力对所有类别都是鲁棒的;但在不平衡学习中,通道注意力更多地增强了频繁类别而非稀有类别。
基于上述发现,本文提出APA函数,旨在通过自适应地调整激活函数,以匹配数据分布,从而提升模型在平衡和不平衡任务中的性能。
方法
自适应参数化激活函数(APA)
图1:上图:在不平衡学习中,logit分布更加偏斜,如图(d)所示,与Gumbel分布相比,它们的KS距离更小。下图:在平衡学习中,logit分布的偏斜程度更小,如图(h)所示,它们与Logistic分布的匹配程度更好,而与Gumbel分布的匹配程度较差。
图2:通道注意力的可视化(A)。在(a)中,在使用不平衡的ImageNet和平衡的ImageNet进行训练时,第一层的注意力信号具有相似的方差,但在最深的语义层(b)中完全不同。在(c)中,ImageNet-LT训练的深层注意力方差为零,因为注意力只促进了少数频繁出现的类。在(d)和(e)中,i-Naturalist18和ImageNet-LT训练中的稀有类的通道注意力熵小于频繁类。在(f)和(g)中,i-Naturalist18和ImageNet-LT中的稀有类的通道响应小于频繁类。
APA函数通过两个可学习的参数κ和λ动态调整激活率,这两个参数在优化过程中被学习。APA的公式如下:
其中,κ是增益参数,控制函数的敏感度;λ是不对称参数,控制函数对正负输入的响应率,允许模型在输入为正或为负时具有不同的学习程度。
APA函数具有以下优点:
- 统一性:APA能够统一大多数常见的激活函数,如Sigmoid、Gumbel、ReLU、SiLU和GELU等。
- 可学习性:通过两个可学习的参数,APA允许网络在优化过程中选择最佳的激活函数,增加了模型的容量。
- 灵活性:APA可以作为ReLU的直接替代,也可以替换注意力机制中的Sigmoid激活函数,显著提升性能。
实验验证
为了验证APA的有效性,本文在多个平衡和不平衡的基准数据集上进行了实验,包括ImageNet-LT、iNaturalist2018、Places-LT、CIFAR100-LT、LVIS等不平衡数据集,以及ImageNet1K、COCO和V3DET等平衡数据集。实验结果表明,APA在所有这些数据集上都显著超过了现有方法。
在实验中,本文分析了APA在不同层中的表现,发现APA能够根据数据分布动态调整激活函数,从而在中间层和分类层中都表现出色。特别是在不平衡学习中,APA通过调整激活函数,显著提高了对稀有类别的建模能力。
结论
自适应参数化激活函数(APA)是一项创新的研究成果,它通过统一大多数常见的激活函数,并在优化过程中自适应地调整激活率,显著提升了模型在平衡和不平衡学习任务中的性能。实验结果表明,APA在多个基准数据集上都取得了优异的表现,为未来的深度学习研究提供了新的思路和方法。