【机器学习】改进Sigmoid函数:缓解梯度消失同时保持概率预测能力
创作时间:
作者:
@小白创作中心
【机器学习】改进Sigmoid函数:缓解梯度消失同时保持概率预测能力
引用
CSDN
1.
https://blog.csdn.net/IT_ORACLE/article/details/144209125
在深度学习领域,Sigmoid函数因其输出范围在(0,1)之间,常被用于概率预测。然而,在深层神经网络中,Sigmoid函数容易导致梯度消失问题,影响模型训练效果。本文提出了一种改进的Sigmoid函数,通过引入线性项和调整陡峭程度,既保持了概率预测能力,又有效缓解了梯度消失问题。
改进思路
增强梯度的动态范围
传统Sigmoid的梯度公式为:
当x较大或较小时,σ(x)接近0或1,梯度趋于0。这是梯度消失的根源。为了增强梯度的动态范围,可以调整函数的陡峭程度。
保持概率性质
Sigmoid函数输出在(0,1)范围内,这一性质对于分类任务的概率预测至关重要。
设计一种改进的Sigmoid
公式定义
改进的激活函数,可以定义为:
其中:
- α>1:通过调节α控制曲线的陡峭程度,增强梯度幅度。
- β>0:引入线性项βx,避免输出饱和。
特性分析
- 增强梯度:
- 线性项βx的引入保证了在输入绝对值较大时,输出仍具有一定的变化率,避免梯度完全趋于零。
- 参数α增强函数在靠近原点附近的非线性程度。
- 输出范围:
- 基本Sigmoid的范围是(0,1),线性项的引入可能改变这一范围。但可以通过对β进行限制,使其保持接近概率的性质。
- 概率性质保留:
- 在β足够小的情况下,输出值仍接近(0,1),可用于概率预测。
优点
- 减少梯度消失:
- 在线性项的辅助下,即使输入较大,梯度也不会完全消失。
- 简单易实现:
- 与传统Sigmoid类似,改进仅需简单调整,不增加显著计算复杂度。
- 增强模型学习能力:
- 在深层网络中改进梯度传递,提升模型对深层特征的捕获能力。
参数调节
- 参数α:
- 一般设置为1<α<5,增强非线性。
- 参数β:
- 通常取0<β<0.1,避免线性项过度影响。
与其他改进激活函数的对比
激活函数 | 输出范围 | 是否饱和 | 梯度范围 | 特点 |
|---|---|---|---|---|
Sigmoid | (0,1) | 是 | 小 | 概率预测,梯度消失问题严重 |
ImprovedSigmoid | (0,1+β) | 缓解 | 增强 | 增加线性项,减缓梯度消失 |
ReLU | [0,∞) | 否 | 恒大于零 | 简单高效,但无法输出概率 |
Leaky ReLU | [−∞,∞) | 否 | 恒大于零 | 减少死亡神经元,但非概率性 |
Swish | (−∞,∞) | 否 | 增强 | 自适应梯度,训练更稳健 |
代码实现
以下是改进Sigmoid函数的Python实现:
import numpy as np
import matplotlib.pyplot as plt
def improved_sigmoid(x, alpha=2.0, beta=0.1):
return 1 / (1 + np.exp(-alpha * x)) + beta * x
# 绘制比较图
x = np.linspace(-10, 10, 100)
y_sigmoid = 1 / (1 + np.exp(-x))
y_improved = improved_sigmoid(x)
plt.figure(figsize=(8, 6))
plt.plot(x, y_sigmoid, label='Sigmoid', linestyle='--', color='blue')
plt.plot(x, y_improved, label='Improved Sigmoid', linestyle='-', color='red')
plt.axhline(0, color='black', linewidth=0.5, linestyle='--')
plt.axvline(0, color='black', linewidth=0.5, linestyle='--')
plt.title("Improved Sigmoid vs Sigmoid")
plt.legend()
plt.grid()
plt.show()
总结
通过在Sigmoid中引入线性项或调整其陡峭程度,能够有效缓解梯度消失问题,同时保持其概率预测能力。这种改进适合用于深层网络,并可以根据具体任务灵活调节参数。
热门推荐
《搜神记》对后世产生了哪些影响?是又是后人取材的渊薮
“告别狗狗嫉妒,和谐宠物生活指南”
如何通过运动促进心理健康和情绪稳定
上海大学全面解析:学术实力、就业前景及学费情况
币圈基础知识之常用压力支撑技术指标详解(配图)中篇
什么是导向计划项目管理
AI为青少年创新能力培养打开一扇门
大连民族大学:以工科为主多学科协调发展的民族高校
武汉江滩"线上线下"融合创新,文旅体验焕发新生
像小说剧情一样选择的文字游戏有哪些 全网最火的文字游戏排行榜
海珠有轨电车终点迁改有地铁换乘更近方案,为何没有直接实施?
脑出血手术最佳时间:发病后6至24小时是黄金窗口
儿童早期矫治全攻略:不同年龄段的常见问题及预防策略
爱的抱抱,为何会激发我们的“愉悦触觉”?
上证50指数的构成和特点是什么?
环境消毒注意事项:保持居家及公共场所的健康安全
PPI和CPI的区别和联系
钟表经典 探索腕表历史中的非凡篇章
人民日报:中国最需要教育的不是孩子,而是爸爸!当父亲的都该看看
海虹的功效与作用、禁忌和食用方法
向内求4大层次:从觉察、觉知、觉悟到觉醒,开启你内在蜕变之旅
高考冲刺期复习5大锦囊妙计,有效提升复习效率!
音频母带处理必备:限制器设置最佳实践
《熊出没之原始时代》:勇气与友谊的冒险之旅
为啥维生素 D「屡补屡缺」?维生素 D 制剂补充的「坑」 你避开了吗?
如何做一张语文手抄报?语文手抄报轻松制作指南!
心中有目标、成长有向往、努力有方向:国旗下演讲,梦想从职业出发
2024年省会城市GDP排名:广州领跑,长沙超越郑州
揭秘健康长寿的秘密:如何在现代社会中实现身心健康平衡?
为什么喝完奶茶,会失眠还会心慌慌?