资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

深度学习中的学习率衰减技巧详解

创作时间:

作者:

@小白创作中心

深度学习中的学习率衰减技巧详解

引用

CSDN

等

来源

https://blog.csdn.net/leonardotu/article/details/136138315

https://blog.csdn.net/xian0710830114/article/details/141075091

https://blog.csdn.net/qq_53536373/article/details/137560377

https://blog.csdn.net/sniper_fandc/article/details/141337459

https://cloud.baidu.com/article/3333022

https://blog.csdn.net/qq_45452617/article/details/139869046

https://blog.51cto.com/u_13788151/11792010

https://cloud.tencent.com/developer/article/2398317

在深度学习中，学习率（Learning Rate）是一个至关重要的超参数，它决定了模型在训练过程中权重更新的步长或速度。一个合适的学习率能够加速模型的收敛，提高模型的泛化能力；而一个不恰当的学习率则可能导致训练过程缓慢、模型性能不佳甚至无法收敛。本文将深入探讨学习率衰减的原理、策略以及实际应用，帮助读者掌握这一关键技巧。

为什么需要学习率衰减？

在训练神经网络时，如果学习率过大，优化算法可能会在最优解附近震荡而无法收敛；如果学习率过小，优化算法的收敛速度可能会非常慢。因此，一种常见的策略是在训练初期使用较大的学习率来快速接近最优解，然后逐渐减小学习率，使得优化算法可以更精细地调整模型参数，从而找到更好的最优解。

常见的学习率衰减策略

1. 指数衰减

指数衰减是一种常用的学习率调整策略，其主要思想是在每个训练周期（epoch）结束时，将当前学习率乘以一个固定的衰减系数（gamma），从而实现学习率的指数衰减。这种策略可以帮助模型在训练初期快速收敛，同时在训练后期通过降低学习率来提高模型的泛化能力。

在PyTorch中，可以使用torch.optim.lr_scheduler.ExponentialLR类来实现指数衰减。该类的构造函数需要两个参数：一个优化器对象和一个衰减系数。在每个训练周期结束时，需要调用ExponentialLR对象的step()方法来更新学习率。

import torch
from torch.optim import SGD
from torch.optim.lr_scheduler import ExponentialLR

# 假设有一个模型参数
model_param = torch.nn.Parameter(torch.randn(2, 2, requires_grad=True))

# 使用SGD优化器，初始学习率设置为0.1
optimizer = SGD([model_param], lr=0.1)

# 创建ExponentialLR对象，衰减系数设置为0.9
scheduler = ExponentialLR(optimizer, gamma=0.9)

# 在每个训练周期结束时，调用step()方法来更新学习率
for epoch in range(100):
    # 这里省略了模型的训练代码
    # ...
    
    # 更新学习率
    scheduler.step()

在这个例子中，初始的学习率是0.1，每个训练周期结束时，学习率会乘以0.9，因此学习率会按照指数的形式衰减。

2. 固定步长衰减

固定步长衰减是一种学习率调整策略，它的原理是每隔一定的迭代次数（或者epoch），就将学习率乘以一个固定的比例，从而使学习率逐渐减小。这样做的目的是在训练初期使用较大的学习率，加快收敛速度，而在训练后期使用较小的学习率，提高模型精度。

PyTorch提供了torch.optim.lr_scheduler.StepLR类来实现固定步长衰减，它的参数有：

optimizer：要进行学习率衰减的优化器，例如torch.optim.SGD或torch.optim.Adam等。
step_size：每隔多少隔迭代次数（或者epoch）进行一次学习率衰减，必须是正整数。
gamma：学习率衰减的乘法因子，必须是0到1之间的数，表示每次衰减为原来的gamma倍。
last_epoch：最后一个epoch的索引，用于恢复训练的状态，默认为-1，表示从头开始训练。
verbose：是否打印学习率更新的信息，默认为False。

下面是一个使用torch.optim.lr_scheduler.StepLR类的具体例子，假设有一个简单的线性模型，使用torch.optim.SGD作为优化器，初始学习率为0.1，每隔5个epoch就将学习率乘以0.8，训练100个epoch：

import torch
import matplotlib.pyplot as plt

# 定义一个简单的线性模型
class Net(torch.nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc = torch.nn.Linear(1, 1)

    def forward(self, x):
        return self.fc(x)

# 创建模型和优化器
model = Net()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

# 创建固定步长衰减的学习率调度器
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.8)

# 记录学习率变化
lr_list = []

# 模拟训练过程
for epoch in range(100):
    # 更新学习率
    scheduler.step()

3. 多步长衰减

多步长衰减是一种更灵活的学习率调整策略，它允许在多个预设的epoch点进行学习率衰减。这种策略特别适用于训练周期较长的模型，可以在不同的训练阶段采用不同的学习率。

在PyTorch中，可以使用torch.optim.lr_scheduler.MultiStepLR类来实现多步长衰减。该类的构造函数需要三个参数：一个优化器对象、一个包含衰减点的列表和一个衰减系数。在每个衰减点，学习率都会乘以衰减系数。

import torch
from torch.optim import SGD
from torch.optim.lr_scheduler import MultiStepLR

# 假设有一个模型参数
model_param = torch.nn.Parameter(torch.randn(2, 2, requires_grad=True))

# 使用SGD优化器，初始学习率设置为0.1
optimizer = SGD([model_param], lr=0.1)

# 创建MultiStepLR对象，衰减点设置为[30, 60, 90]，衰减系数设置为0.1
scheduler = MultiStepLR(optimizer, milestones=[30, 60, 90], gamma=0.1)

# 在每个训练周期结束时，调用step()方法来更新学习率
for epoch in range(100):
    # 这里省略了模型的训练代码
    # ...
    
    # 更新学习率
    scheduler.step()

在这个例子中，初始的学习率是0.1，在第30、60和90个epoch时，学习率会分别乘以0.1，从而实现多步长衰减。

4. 余弦退火衰减

余弦退火衰减是一种基于余弦函数的学习率调整策略，它可以使学习率在训练过程中按照余弦函数的周期和最值进行变化。这种策略可以在训练初期快速降低学习率，然后在训练后期缓慢提高学习率，从而帮助模型跳出局部最优解。

在PyTorch中，可以使用torch.optim.lr_scheduler.CosineAnnealingLR类来实现余弦退火衰减。该类的构造函数需要三个参数：一个优化器对象、一个周期长度和一个最小学习率。在每个训练周期结束时，需要调用CosineAnnealingLR对象的step()方法来更新学习率。

import torch
from torch.optim import SGD
from torch.optim.lr_scheduler import CosineAnnealingLR

# 假设有一个模型参数
model_param = torch.nn.Parameter(torch.randn(2, 2, requires_grad=True))

# 使用SGD优化器，初始学习率设置为0.1
optimizer = SGD([model_param], lr=0.1)

# 创建CosineAnnealingLR对象，周期长度设置为100，最小学习率设置为0.001
scheduler = CosineAnnealingLR(optimizer, T_max=100, eta_min=0.001)

# 在每个训练周期结束时，调用step()方法来更新学习率
for epoch in range(100):
    # 这里省略了模型的训练代码
    # ...
    
    # 更新学习率
    scheduler.step()

在这个例子中，初始的学习率是0.1，学习率会按照余弦函数的变化规律在100个epoch内从0.1逐渐降低到0.001，然后再逐渐升高。

5. 自适应学习率衰减

自适应学习率衰减是一种根据模型训练进度自动调整学习率的策略。这种策略可以根据验证集的性能指标（如准确率或损失值）来动态调整学习率，从而在训练过程中自动找到最佳的学习率。

在PyTorch中，可以使用torch.optim.lr_scheduler.ReduceLROnPlateau类来实现自适应学习率衰减。该类的构造函数需要多个参数，包括优化器对象、性能指标的监控方式、学习率衰减的触发条件等。在每个训练周期结束时，需要调用ReduceLROnPlateau对象的step()方法，并传入相应的性能指标值来更新学习率。

import torch
from torch.optim import SGD
from torch.optim.lr_scheduler import ReduceLROnPlateau

# 假设有一个模型参数
model_param = torch.nn.Parameter(torch.randn(2, 2, requires_grad=True))

# 使用SGD优化器，初始学习率设置为0.1
optimizer = SGD([model_param], lr=0.1)

# 创建ReduceLROnPlateau对象，监控验证集损失值，当损失值不再下降时减小学习率
scheduler = ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10)

# 在每个训练周期结束时，调用step()方法并传入验证集损失值来更新学习率
for epoch in range(100):
    # 这里省略了模型的训练代码
    # ...
    
    # 假设val_loss是验证集损失值
    val_loss = ...
    
    # 更新学习率
    scheduler.step(val_loss)

在这个例子中，初始的学习率是0.1，当验证集损失值在连续10个epoch内不再下降时，学习率会乘以0.1，从而实现自适应衰减。