深度学习之梯度消失
创作时间:
作者:
@小白创作中心
深度学习之梯度消失
引用
CSDN
1.
https://blog.csdn.net/weixin_49146002/article/details/140309356
在深度学习中,梯度消失是指在反向传播过程中,随着网络层数增加或者在使用特定类型的激活函数(如sigmoid函数)时,梯度逐渐变小并最终趋近于零的现象。这种现象导致在更新参数时,底层网络的权重几乎不会得到有效的更新,从而使得网络在学习过程中变得非常缓慢甚至停滞不前。
以Sigmoid函数为例,说明梯度消失问题
Sigmoid函数的导数计算如下:
现在来看Sigmoid函数的导数在什么情况下会导致梯度消失问题:
- 导数范围:
- 对于Sigmoid函数,当输入x较大或较小时,Sigmoid函数的值接近于0或1,此时导数的乘积值范围是[ 0, 0.25 ]。这意味着,无论输入是正是负,导数的最大值都不会超过0.25。
- 反向传播中的梯度传递:
- 在一个深层的神经网络中,反向传播会通过链式法则将梯度传递回到每一层的权重。每一层的梯度都是上一层梯度和当前层激活函数导数的乘积。
- 梯度乘积效应:
- 当网络很深时,梯度会经过多个层级的乘积。由于Sigmoid函数导数的范围是[ 0, 0.25 ],这意味着每传递一层,梯度都会缩小为原来的四分之一左右。因此,随着层数的增加,梯度可能会非常快地趋近于零,尤其是在网络的初始层。
- 梯度消失影响:
- 当梯度趋近于零时,网络的底层参数几乎不会得到有效的更新,导致这些层学习到的特征变得不稳定甚至停滞不前。这会影响整个网络的训练效果,尤其是对于较深的神经网络。
因此,Sigmoid函数的导数范围较小,以及其特性使得在深层网络中容易出现梯度消失问题。为了解决这个问题,ReLU及其变种成为了更好的选择,因为它们在大多数情况下能够避免梯度消失,从而加速神经网络的训练。
热门推荐
东南方位种柿子,财运亨通福满堂
“柿柿”如意:解读柿子树的文化内涵与艺术价值
秋冬必备川贝母粉:止咳润肺功效与食用方法详解
外星人电解质水:高强度训练的最佳选择
马拉松选手必备:电解质水的秘密武器
CNC加工如何实现高质量生产?
工业4.0与AI联手,CNC加工迎来新时代
肺结核筛查迎来技术突破:低剂量CT减辐射90%,AI诊断准确率超94%
AI助力肺结核诊断:准确率比肩专家,诊断时间缩短至3分钟
1分钟完成肺结核诊断,南京二院AI系统临床应用显成效
低剂量CT配智能诊断,首都医科大学提升肺结核检测水平
低剂量CT助力肺结核早诊,辐射剂量仅为传统十分之一
近期,《故宫100》与《我在故宫修文物》两部纪录片走红,分别从建筑细节和工匠精神两个维度,展现了故宫的文化魅力。
75%龙脑香物种濒危,亚洲生物多样性保护刻不容缓
帝都这些游客罕至的冷门街区,比南锣鼓巷好逛100倍,景点超多!
考古中国 | 北京丰台新宫遗址考古收获
贾家兴衰,《红楼梦》里的人性百态
林黛玉诗词:让你秒变文艺女神
玄凤鹦鹉:特点、饲养体验及如何饲养
鸡尾鹦鹉:世界上最常见的中型鹦鹉之一
玄凤鹦鹉怎么养?饲养玄凤鹦鹉的8个要点
茅山道术奇幻小说:传统文化的现代演绎
莆田首位!湄洲日报社记者获福建最高新闻奖
广东河源温泉全攻略:从水晶温泉到国医温泉,七处养生胜地详解
新疆成功培育5个巴旦木新品种,为产业发展注入新动力
临汾:帝尧古都、博物馆珍藏见证“最早中国”
奥美拉唑治反酸,你真的用对了吗?
中医食疗缓解反酸,党参白术来帮忙
情感博主必看:如何取一个走心又有吸引力的名字?
人类性别由什么决定?专家有了重大发现