资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

学习率与batch_size对模型性能的影响

创作时间:

作者:

@小白创作中心

学习率与batch_size对模型性能的影响

引用

CSDN

https://blog.csdn.net/dabingsun/article/details/104570325

学习率（learning rate）和批量大小（batch size）是深度学习模型训练中的两个关键超参数。它们不仅影响模型的训练速度，还对模型的最终性能有着重要影响。本文将详细探讨这两个参数的定义、关系以及它们对模型性能的具体影响。

学习率

学习率（lr）表示每次更新权重参数的尺度（步长）。直观来看，lr越大，权重更新的跨度越大，模型参数调整变化越快。

Batch_size（批量大小）

批量大小（batch size）决定了每次训练时使用的样本数量。其计算公式为：

batch_size = N / batch
batch = N / batch_size

其中，N为训练数据集大小，batch为需要多少次迭代才能在一个epoch中训练完整个数据集。batch_size参数决定了完整训练数据集1个epoch需要多少个batch。

学习率与batch_size在权重更新中的关系

学习率（lr）直观可以看出lr越大，权重更新的跨度越大，模型参数调整变化越快。

batch_size对模型的影响，在于模型每次更新时，计算梯度是计算整个Batch的平均梯度，即权重更新公式中的：

整合就是：

即lr与batch_size共同影响模型更新。

学习率与batch_size对模型性能的影响

大的batchsize减少训练时间，提高稳定性。这是肯定的，同样的epoch数目，在性能允许情况下，大的batchsize需要的batch数目减少了，所以可以减少训练时间。另一方面，大的batch size梯度的计算更加稳定，因为模型训练曲线会更加平滑。在微调的时候，大的batch size可能会取得更好的结果。
过大的batchsize泛化能力下降。 在一定范围内，增加batchsize有助于收敛的稳定性，但是随着batchsize的增加，模型的性能会下降，如下图，来自于文[1]。

这是研究者们普遍观测到的规律，虽然可以通过一些技术缓解。这个导致性能下降的batch size在上图就是8000左右。

研究[2]表明大的batchsize收敛到sharp miminum，而小的batchsize收敛到flat mimimum，后者具有更好的泛化能力。两者的区别就在于变化的趋势，一个快一个慢，如下图，造成这个现象的主要原因是小的batchsize带来的噪声有助于逃离sharp mininum。

Hoffer[3]等人的研究表明，大的batchsize性能下降是因为训练时间不够长，本质上并不是batchsize的问题，在同样的epochs下的参数更新变少了，因此需要更长的迭代次数。

对过拟合的影响

学习率：学习率高的话，模型学习数据时间加快，提前到达拟合点，但是epoch没结束，继续学习训练数据，容易导致过拟合于原始数据。
batch_size：同样是通过对训练步数的影响，小的batch_size使模型迭代次数增多，提前到达拟合点，但是epoch没结束，继续学习训练数据，容易导致过拟合于原始数据。

补充

较大的batch_size能够得到更加精准的梯度估计，但是回报小于线性。
较小的batch_size能够带来更好的泛化误差。

由于小batch_size再学习过程中带来了噪声，会产生一些正则化效果。
由于梯度估计的高方差，小batch_size在训练中需要更小的学习率以保持稳定性，这意味着更长的训练时间

当batch_size设置为2的次幂时能够充分利用矩阵运算。

参考文献

[1] Goyal P, Dollar P, Girshick R B, et al. Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

[2] Keskar N S, Mudigere D, Nocedal J, et al. On large-batch training for deep learning: Generalization gap and sharp minima[J]. arXiv preprint arXiv:1609.04836, 2016.

[3] Hoffer E, Hubara I, Soudry D. Train longer, generalize better: closing the generalization gap in large batch training of neural networks[C]//Advances in Neural Information Processing Systems. 2017: 1731-1741.

热门推荐

哪儿疼就贴哪儿？膏药也得对症下“贴”