问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

深度神经网络中常用的激活函数及其性质

创作时间:

作者:

@小白创作中心

深度神经网络中常用的激活函数及其性质

引用

CSDN

1.

https://blog.csdn.net/2301_79886169/article/details/146525108

在深度学习领域，激活函数是神经网络中的关键组件，它决定了神经元如何响应输入信号。通过引入非线性特性，激活函数使神经网络能够学习和模拟复杂的模式。本文将详细介绍几种常用的激活函数，包括它们的数学公式、图像特征、优缺点以及适用场景。

1. 前言

在神经网络中，激活函数（Activation Function）是决定神经元输出信号的关键组件。它通过引入非线性特性，使神经网络能够学习和模拟复杂的模式。

激活函数的作用:

引入非线性：神经网络的作用便是用于拟合难以描述的函数关系，如果没有激活函数，多层神经网络等价于单层现性变换，无法解决非线性问题，即无法拟合出非线性函数关系。
控制输出范围：比如 Sigmoid 将输出压缩到 (0, 1)，适合概率输出
梯度传播：激活函数的导数影响反向传播的梯度，避免梯度消失或爆炸。

2. Sigmoid（Logistic 函数）

公式：
$$\sigma(x) = \frac{1}{1 + e^{-x}}$$
图像：S 型曲线，输出范围为 (0, 1)。（如下所示）
优点：
输出可解释为概率。
平滑梯度，适合浅层网络。（深层网络不太适用）
缺点：
梯度消失：当输入绝对值较大时，导数接近 0 。
非零中心化：输出均值不为 0，影响梯度更新效率。
适用场景：二分类输出层、早期简单神经网络

3. Tanh（双曲正切函数）

公式：
$$tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$$
图像：S 型曲线，输出范围 (-1, 1)。（如下所示）
优点：
零中心化：输出均值为 0, 梯度更新更高效。
比 Sigmoid 更陡峭的梯度。
缺点：
仍存在梯度消失问题。
适用场景：隐藏层，尤其是 RNN、LSTM 等。

4. ReLU（Rectified Linear Unit 非线性激活单元）

公式：
$$ReLU(x) = max(0, x)$$
图像：左半轴恒为 0，右半轴恒为线性。（如下所示）
优点：
计算高效：无指数运算。
缓解梯度消失：正区间导数为 1 。
缺点：
Dead ReLU 问题：输入为负时梯度为 0，神经元”死亡“。
输出非零中心化：
适用场景：大多数前馈神经网络的隐藏层（默认选择）。

前馈神经网络（Feedforward Neural Network, FNN）是人工神经网络中最基础、最广泛使用的类型之一，其核心是数据单向流动（从输入层到输出层），没有循环或反馈连接。

5. Leaky ReLU

ReLU 的升级版

公式：
$$LeakyReLU(x) =
\begin{cases}
x & \text{if } x > 0 \
\alpha x & \text{otherwise}
\end{cases}$$
（通常 $\alpha = 0.01$）
图像：（如下所示）
改进：负区间引入小斜率 $\alpha$，缓解 Dead ReLU。
优点：
保留 ReLU 优点，减少神经元死亡。
缺点：
$\alpha$ 需手动设定或学习。
适用场景：需解决 Dead ReLU 问题的深层网络。

6. Parametric ReLU（PReLU）

Leaky ReLU 的升级版

公式：类似于 Leaky ReLU，但 $\alpha$ 是可学习参数
优点：自适应调整负区间斜率。
缺点：增加参数量，可能过拟合。
适用场景：大型网路（如 ResNet）

7. ELU（Exponential Linear Unit）

ReLU 的另一个升级版

公式：
$$ELU(x) =
\begin{cases}
x & \text{if } x > 0 \
\alpha(e^x - 1) & \text{otherwise}
\end{cases}$$
（通常 $\alpha = 1$）
图像：（如下所示）
优点：
负区间平滑过渡，接近零均值输出。
缓解 Dead ReLU 问题。
缺点：
指数计算增加复杂度。
适用场景：深层网络，对噪声敏感的任务

8. Softmax

公式：
$$Softmax(x_i) = \frac{e^{x_i}}{\sum_{j=1}^n e^{x_j}}$$
特点：将输出压缩为概率分布（总和为 1）。
适用场景：多分类输出层。

9. Swish

公式：
$$Swish(x) = x \cdot \sigma(\beta x)$$
($\sigma$ 为 Sigmoid，$\beta$ 常设为 1 或可学习)
优点：
平滑且非单调，实验显示优于 ReLU。
缺点：计算量略大。
适用场景：替代 ReLU 的隐藏层。

10. Mish

公式：
$$Mish(x) = x \cdot \tanh(\ln(1+e^x))$$

优点：
更平滑的梯度，缓解 Dead ReLU。
缺点：计算成本高。
适用场景：计算机视觉任务。

热门推荐

脂肪肝的中西医结合治疗：从临床案例到专家解读

脂肪肝的中西医结合治疗：从临床案例到专家解读

孩子发烧时的饮食指南：这些食物助于快速康复

孩子发烧时的饮食指南：这些食物助于快速康复

章泽天透露家庭帕金森基因，帕金森病真的都会遗传吗？

章泽天透露家庭帕金森基因，帕金森病真的都会遗传吗？

你可知李嘉诚在国内做了多少慈善？

你可知李嘉诚在国内做了多少慈善？

炒股需要具备什么条件？具备这些条件如何提高炒股成功率？

炒股需要具备什么条件？具备这些条件如何提高炒股成功率？

2026年公务员国考报名时间是什么时候？历年报名时间一览

2026年公务员国考报名时间是什么时候？历年报名时间一览

厨房液体调料有哪些？如何选择搭配更出色

厨房液体调料有哪些？如何选择搭配更出色

阳台种西红柿怎么授粉

阳台种西红柿怎么授粉

车祸后的影响：了解车祸后对人生身体与心理的挑战

车祸后的影响：了解车祸后对人生身体与心理的挑战

技术创新二等奖：生物质锅炉中高温SCR高尘脱硝集成技术

技术创新二等奖：生物质锅炉中高温SCR高尘脱硝集成技术

经营管理如何定位客户

经营管理如何定位客户

女子便秘竟然是腰椎骨折引起

女子便秘竟然是腰椎骨折引起

元宇宙是什么，它的生态系统是如何运作的？

元宇宙是什么，它的生态系统是如何运作的？

高收益VS投资级——亚洲美元债的两种类别该如何选择？

高收益VS投资级——亚洲美元债的两种类别该如何选择？

茶艺之美：从冲泡到茶会的全方位品鉴

茶艺之美：从冲泡到茶会的全方位品鉴

寺庙修行：现代社会中的心灵归宿

寺庙修行：现代社会中的心灵归宿

如何用4种简单的方法在电脑上扫描二维码

如何用4种简单的方法在电脑上扫描二维码

蓝屏检测工具_蓝屏不可怕，不会解决才尴尬！

蓝屏检测工具_蓝屏不可怕，不会解决才尴尬！

求职陷阱套路多，教你识别这些“信号”！

求职陷阱套路多，教你识别这些“信号”！

香港中学择校指南 | 中学类型与学制全解析

香港中学择校指南 | 中学类型与学制全解析

AI如何重塑造价咨询工作流？

AI如何重塑造价咨询工作流？

跑步机配速营养策略：5种能量补充计划

跑步机配速营养策略：5种能量补充计划

床上用品多久清洗一次，多久更新换代？

床上用品多久清洗一次，多久更新换代？

如何寻找行业指标的平均值？这种寻找方法对行业分析有何作用？

如何寻找行业指标的平均值？这种寻找方法对行业分析有何作用？

从普通人到千万粉丝主播，张大仙如何通过王者荣耀直播改变一生？

从普通人到千万粉丝主播，张大仙如何通过王者荣耀直播改变一生？

尿液浅棕色的原因是什么，怎么办？

尿液浅棕色的原因是什么，怎么办？

棱柱棱锥棱台 | 概念释疑

棱柱棱锥棱台 | 概念释疑

新手必看！鬃狮蜥饲养指南，轻松成为爬宠达人

新手必看！鬃狮蜥饲养指南，轻松成为爬宠达人

一厢情愿的完整解释：意思、来源与高级表达

一厢情愿的完整解释：意思、来源与高级表达

复数的物理意义：从旋转到欧拉公式

复数的物理意义：从旋转到欧拉公式

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号