问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

PyTorch中减少过拟合的六种方法详解

创作时间:

作者:

@小白创作中心

PyTorch中减少过拟合的六种方法详解

引用

CSDN

1.

https://blog.csdn.net/2201_76139143/article/details/137052885

过拟合是机器学习和深度学习中常见的问题，它会导致模型在训练数据上表现很好，但在新数据上泛化能力差。本文将介绍几种在PyTorch中减少过拟合的有效方法，包括增加数据集、正则化、加入动量、调整学习率、Dropout和随机梯度下降等。

1. 增加数据集

增加数据集是减少过拟合最直接有效的方法。通过增加训练样本的数量和多样性，可以提高模型的泛化能力。

2. 正则化(Regularization)

正则化是一种得到更简单模型的方法。以多项式为例，随着最高次项的增加，模型会变得越来越复杂，虽然能更好地拟合训练数据，但容易导致过拟合。正则化通过限制模型的复杂度来防止过拟合。

图-1：模型复杂度与拟合程度的关系

直观来看，经过正则化的模型更加平滑。

图-2：正则化前后模型对比

正则化的方法：

（1）L1-正则化：在原来的模型基础上加上一个 1-范数（这里使用二分类模型作为示例）：

（2）L2-正则化：在原来的模型基础上加上一个 2-范数（这里使用二分类模型作为示例）：

# L2-正则化
device = torch.device('cuda:0')
net = MLP.to(device)
optimizer = optim.SGD(net.parameters,lr = learning_rate,weight_decay=0.01) #weight_decay=0.01就代表进行L2-正则化
criteoon = nn.CrossEntropyLoss().to(device)

# L1-正则化
# 对于L1-正则化，pytorch并没有提供直接的方法，就只能使用人工去做了
regularization_loss = 0
for param in model.parameters():                # 相求1-范数的总和
    regularization_loss += torch.sum(torch.abs(param))
classify_loss = criteon(logits,target)
loss = classify_loss + 0.01*regularization_loss     # 再将得到的正则损失加入模型损失，其中0.01是1-范数总和前面的系数
optimizer.zero_grad()
loss.backward()
optimizer.step()

3. 加入动量（momentum）

动量即惯性——本次向哪移动，还需要考虑上一次移动的方向。

正常更新梯度的公式（公式-1）：

加入动量之后的公式（公式-2）：

将z(k+1)带入梯度更新公式，即公式-1减去，其中Z(k)相当于上一次的梯度，系数和β的大小决定了是当前梯度对方向的决定性大，还是上一梯度对方向的决定性大。

当动量为0时的梯度更新情况（图-3）：

图-3：动量为0时的梯度更新情况

动量不为0时的梯度更新情况（图-4）：

图-4：动量不为0时的梯度更新情况

将图-3和图-4对比，可以得出动量不为0，即考虑上一梯度，梯度更新更加稳定，不会出现巨大的跳跃情况，并且不加动量的没有找到最小点，一直在局部最小值点徘徊，如果加入动量，考虑到上一梯度，可以在一定程度上解决这种情况（图-4是加入动量之后最好的情况）。

代码演示，直接在优化器部分使用momentum属性就可以了，但是如果使用Adam优化器，就不需要添加，因为在Adam优化器内部定义的有momentum属性：

4. 学习率（Learning Rate ）

不同学习率梯度更新情况（图-5）：

图-5：不同学习率的梯度更新情况

当学习率太小的时候，梯度更新比较慢，需要较多次的更新。

当学习率太大的时候，梯度更新比较激烈，找到的极值点Loss太大。

如何找到正确的的学习率？

在训练之初，可以先设置一个较大的学习率加快更新的速度，然后逐步减小学习率，即设置一个动态学习率。

图-6：动态学习率的变化

从图-6，可以看到有一个突然下降的点，这个点就是学习率训练一些数据之后，学习率突然变小导致的结果。在此之前可以看到Loss趋于不变，可以合理的猜测是因为学习率太大了，出现了来回摇摆不定的情况（图-7）：

图-7：学习率过大时的梯度更新情况

当学习率突然减小，梯度更新变慢，易找到极小点（图-8）：

图-8：学习率减小时的梯度更新情况

代码演示：

5. Dropout

Dropout：减少神经元之间的连接，减少模型的学习量。标准的神经网络是全连接的，相比经过dropout的神经网络减少了一些连接（图-9）。

图-9：Dropout前后神经网络连接对比

代码演示，可以使用Dropout方法断开连接，0.5代表断开两层之间的50% ：

这种方法被用在模型训练中，但当模型测试过程中，为了提高test的表现，要结束这个操作，将所有的连接都使用上，可以使用net_dropped.eval()方法结束这个操作，代码演示如下：

6. 随机梯度下降（Strochastic Gradient Descent ）

图-10：随机梯度下降示意图

这里的随机并不是指任意，这里面是有一套规则的，是一套映射的关系，即将原来的数据x送入f(x)得到一种分布。经过随机从原数据中得到一组小数据，使用这一小组数据训练模型。

学习：课时60 Early stopping, dropout等_哔哩哔哩_bilibili

热门推荐

冬日暖身秘籍！煲鸡汤的最佳搭配大公开

冬日暖身秘籍！煲鸡汤的最佳搭配大公开

最新！济南轨道交通重点项目建设再传捷报

最新！济南轨道交通重点项目建设再传捷报

普洱茶鲜叶采摘与处理全攻略：标准、技巧及注意事项

普洱茶鲜叶采摘与处理全攻略：标准、技巧及注意事项

耳鸣脑鸣可以按摩这些穴位来缓解

耳鸣脑鸣可以按摩这些穴位来缓解

个人低保申请书模板：法律要点与实际操作指南

个人低保申请书模板：法律要点与实际操作指南

低保申请书写作指南：法律实务与格式规范

低保申请书写作指南：法律实务与格式规范

我的世界消除一切生物和掉落物的指令是什么2025年

我的世界消除一切生物和掉落物的指令是什么2025年

免疫治疗，让肺癌不再可怕？最新中国专家共识告诉你真相

免疫治疗，让肺癌不再可怕？最新中国专家共识告诉你真相

中国工农红军第5军团——从起义部队成长为红色劲旅

中国工农红军第5军团——从起义部队成长为红色劲旅

97年未破案件：悬而未决的法律之谜

97年未破案件：悬而未决的法律之谜

除头屑最有效的方法

除头屑最有效的方法

想让孩子长高个？这几类室内运动效果好

想让孩子长高个？这几类室内运动效果好

华为手机手写功能：从启用到使用的一步到位

华为手机手写功能：从启用到使用的一步到位

【显卡百科】独立显卡和集成显卡的区别是什么台式机显卡如何选购

【显卡百科】独立显卡和集成显卡的区别是什么台式机显卡如何选购

电脑Excel很卡怎么办？15种实用解决方案

电脑Excel很卡怎么办？15种实用解决方案

事物发展的三大规律

事物发展的三大规律

中医教你，不同体质如何喝茶

中医教你，不同体质如何喝茶

数据分析利用AI的6种方法

数据分析利用AI的6种方法

台州技师学院：强技能兴制造促共富以“技”赋能产业高质量发展

台州技师学院：强技能兴制造促共富以“技”赋能产业高质量发展

二氧化硒的反应性与危害

二氧化硒的反应性与危害

探讨账号所有权归属问题：法律角度分析

探讨账号所有权归属问题：法律角度分析

低温无缝钢管的用途

低温无缝钢管的用途

DEFI有哪些应用领域？DeFi领域当前值得关注的8大趋势

DEFI有哪些应用领域？DeFi领域当前值得关注的8大趋势

刺绣初学者福音，12种基本针法轻松掌握，让你的作品更具魅力

刺绣初学者福音，12种基本针法轻松掌握，让你的作品更具魅力

Z80系统架构：高效构建策略与技巧

Z80系统架构：高效构建策略与技巧

与方特达成合作意向！惠州能如愿引进大型主题乐园吗？

与方特达成合作意向！惠州能如愿引进大型主题乐园吗？

轻度膝盖关节炎疼痛，该如何用药？

轻度膝盖关节炎疼痛，该如何用药？

勉县新铺镇：念好“五字诀” 打造省级“千万工程”示范村

勉县新铺镇：念好“五字诀” 打造省级“千万工程”示范村

一文详解，音箱与功放如何匹配

一文详解，音箱与功放如何匹配

租赁：探究其法律性质与益物权的差异

租赁：探究其法律性质与益物权的差异

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号