深入理解 ResNet:深度残差网络
深入理解 ResNet:深度残差网络
随着深度学习的发展,网络的层数变得越来越深。然而,研究发现,更深的网络并不总能带来更好的性能。在训练非常深的网络时,常会出现以下两个问题:梯度消失或爆炸:随着网络加深,反向传播中的梯度可能会消失或爆炸,导致模型难以训练。退化问题:即使没有梯度问题,增加网络层数反而会导致训练误差增大,这意味着更深的网络并未有效学到更多的特征。为了解决这些问题,ResNet提出了“残差学习”的概念。
什么是 ResNet?
随着深度学习的发展,网络的层数变得越来越深。然而,研究发现,更深的网络并不总能带来更好的性能。在训练非常深的网络时,常会出现以下两个问题:
- 梯度消失或爆炸:随着网络加深,反向传播中的梯度可能会消失或爆炸,导致模型难以训练。
- 退化问题:即使没有梯度问题,增加网络层数反而会导致训练误差增大,这意味着更深的网络并未有效学到更多的特征。
为了解决这些问题,ResNet提出了“残差学习”的概念。
ResNet 的核心思想
ResNet的核心是残差模块(Residual Block),它通过引入跳跃连接(Skip Connection),使得网络能够直接学习残差函数,而不是原始映射函数。
残差模块的公式为:
y=F(x,{Wi})+x
其中:
- F(x,{Wi})表示残差,即网络需要学习的部分。
- x是输入,跳跃连接将其直接传递到输出。
这种设计的优点是:
- 如果额外的层对输出无贡献(即学习到的是恒等映射),网络可以轻松实现这一点,因为直接跳过了这部分计算。
- 避免了深层网络中梯度传递的困难。
残差模块结构
一个典型的残差模块包括:
- 两个或三个卷积层(通常后接Batch Normalization和ReLU激活函数)。
- 一个跳跃连接(可能需要使用1x1卷积调整维度)。
以下是一个标准的2-layer残差模块示意图:
ResNet 的网络架构
ResNet的原始版本包括多种深度的网络结构,如ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152。以下是它们的主要区别:
ResNet-18和ResNet-34:
使用基本的2-layer残差模块。
适合计算资源有限的场景。
ResNet-50、ResNet-101和ResNet-152:
使用瓶颈结构的3-layer残差模块(1x1卷积用于降维和升维,中间是3x3卷积)。
更深的网络可以提取更高级别的特征。
ResNet-50的典型结构:
- 输入:224x224的图像
- 卷积层+最大池化:特征图缩小到112x112
- 四个阶段(每个阶段包含多个残差块)
- 全局平均池化+全连接层
ResNet的优势
- 解决深度退化问题:残差学习能够让网络更容易优化,随着层数加深也不会导致性能下降。
- 强大的特征提取能力:ResNet能够在更深的网络中捕获多层次的特征信息。
- 易于扩展和迁移:ResNet的模块化设计使其可以很方便地应用到不同任务中(如目标检测、语义分割)。
ResNet 的实现(PyTorch 示例)
在现实任务中,往往需要根据数据选择网络的深度。在笔者现有的ResNet34和ResNet50足以满足任务需求,以下是使用PyTorch实现一个简单的ResNet模块的代码:
import torch
import torch.nn as nn
import torch.nn.functional as F
# 定义残差模块
class ResidualBlock(nn.Module):
def __init__(self, in_channels, out_channels, stride=1, downsample=None):
super(ResidualBlock, self).__init__()
self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)
self.bn1 = nn.BatchNorm2d(out_channels)
self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)
self.bn2 = nn.BatchNorm2d(out_channels)
self.downsample = downsample
def forward(self, x):
residual = x
if self.downsample:
residual = self.downsample(x)
out = F.relu(self.bn1(self.conv1(x)))
out = self.bn2(self.conv2(out))
out += residual
return F.relu(out)
# 定义 ResNet 主体
class ResNet(nn.Module):
def __init__(self, block, layers, num_classes=1000):
super(ResNet, self).__init__()
self.in_channels = 64
self.conv = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
self.bn = nn.BatchNorm2d(64)
self.relu = nn.ReLU(inplace=True)
self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
self.layer1 = self._make_layer(block, 64, layers[0])
self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
self.fc = nn.Linear(512, num_classes)
def _make_layer(self, block, out_channels, blocks, stride=1):
downsample = None
if stride != 1 or self.in_channels != out_channels:
downsample = nn.Sequential(
nn.Conv2d(self.in_channels, out_channels, kernel_size=1, stride=stride, bias=False),
nn.BatchNorm2d(out_channels),
)
layers = [block(self.in_channels, out_channels, stride, downsample)]
self.in_channels = out_channels
for _ in range(1, blocks):
layers.append(block(out_channels, out_channels))
return nn.Sequential(*layers)
def forward(self, x):
x = self.relu(self.bn(self.conv(x)))
x = self.maxpool(x)
x = self.layer1(x)
x = self.layer2(x)
x = self.layer3(x)
x = self.layer4(x)
x = self.avgpool(x)
x = torch.flatten(x, 1)
x = self.fc(x)
return x
# 创建 ResNet-18
def ResNet18():
return ResNet(ResidualBlock, [2, 2, 2, 2])
# 测试
model = ResNet18()
print(model)
ResNet的影响
自ResNet提出以来,残差网络已被广泛应用于计算机视觉和其他深度学习领域,如自然语言处理、语音识别等。它的核心思想还被进一步扩展到DenseNet、Highway Networks等各种变种网络中。ResNet的提出标志着深度学习迈向了新的高度。通过残差学习,它让超深网络的训练变得可能,并推动了深度学习在多个领域的快速发展。如果你正在构建一个需要强大特征提取能力的模型,不妨试试ResNet!希望这篇文章对你理解ResNet有帮助!如果有任何问题或想法,欢迎留言讨论。