资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

机器学习中的Sigmoid函数：从基础到应用

创作时间:

作者:

@小白创作中心

机器学习中的Sigmoid函数：从基础到应用

引用

CSDN

https://blog.csdn.net/IT_ORACLE/article/details/145958454

Sigmoid函数是机器学习和深度学习中的重要基础概念之一，广泛应用于逻辑回归和神经网络中。本文将从数学表达式、特性、导数、应用等多个维度深入解析Sigmoid函数，帮助读者全面理解这一核心工具。

1. 引言

逻辑回归（Logistic Regression）是机器学习中常用的分类算法，而Sigmoid函数是逻辑回归的核心数学工具。Sigmoid函数能够将任意实数映射到(0,1)之间，因此特别适用于概率估计。在这篇文章中，我们将深入探讨Sigmoid函数的数学公式、特性、导数、应用以及其在逻辑回归中的作用。

2. Sigmoid函数的数学表达

Sigmoid函数的数学表达式如下：

其中：

x是输入变量，可以取任意实数值。
e是自然对数的底数，约等于2.718。
σ(x)的输出范围是(0,1)，适合用作概率表示。

2.1 Sigmoid函数的基本性质

当x→+∞，σ(x)→1。
当x→-∞，σ(x)→0。
当x=0，σ(x)=0.5。
Sigmoid函数的形状是S形曲线（如图所示），在x值较小时，函数值接近0，较大时接近1。

2.2 Sigmoid函数的图像

从图像来看，Sigmoid函数在x轴上呈现对称性，在x=0处对称。它的变化最剧烈的区域在x=0附近，这表明Sigmoid对较小的输入值更敏感，而当x取值极端时，函数趋于平缓。

3. Sigmoid函数的导数

Sigmoid函数的导数在机器学习和深度学习中非常重要，特别是在梯度下降优化过程中。Sigmoid的导数公式如下：

推导过程如下：

对x求导：

使用链式法则：

由于：

代入得：

3.1 Sigmoid导数的性质

最大值：当σ(x)=0.5时，导数达到最大值0.25。
最小值：当σ(x)接近0或1时，导数接近0。这表明在极端区域（远离0的区域），Sigmoid函数的梯度会消失（即梯度消失问题）。

4. Sigmoid函数的应用

4.1 逻辑回归

逻辑回归是二分类问题中常用的模型，核心思想是：

先计算线性变换：z=wx+b。
通过Sigmoid函数计算概率：p=σ(z)。
根据设定的阈值（如0.5），决定分类结果：
如果p>0.5，预测为1类。
如果p≤0.5，预测为0类。

4.2 神经网络

在深度学习中，Sigmoid函数常用于：

输出层激活函数（尤其是二分类问题）。
早期神经网络中的隐藏层激活函数（但因梯度消失问题，现多用ReLU代替）。

4.3 其他应用

生物学：Sigmoid函数用于描述生长曲线和神经元激活。
经济学：用于建模市场饱和度和边际收益递减。

5. Sigmoid函数的优缺点

5.1 优点

概率解释性：输出值位于(0,1)之间，可直接解释为概率。
平滑可微：Sigmoid是一个连续、可微的函数，适用于梯度下降优化。
单调性：Sigmoid函数是单调递增的，适合用于分类任务。

5.2 缺点

梯度消失问题：

在极端值（接近0或1）时，梯度接近0，导致深层神经网络难以训练。
现代深度学习一般用ReLU代替Sigmoid作为隐藏层激活函数。

计算代价较高：

计算exp(-x)需要指数运算，比线性变换计算成本更高。

非零均值问题：

Sigmoid函数的输出范围是(0,1)，均值不是0，可能导致权重更新不稳定。

6. 代码示例

6.1 计算Sigmoid值

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

x = np.linspace(-10, 10, 100)
y = sigmoid(x)

plt.plot(x, y, label="Sigmoid Function")
plt.xlabel("x")
plt.ylabel("σ(x)")
plt.legend()
plt.show()

6.2 计算Sigmoid的导数

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

x = np.linspace(-10, 10, 100)
y = sigmoid(x)

def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

y_derivative = sigmoid_derivative(x)

plt.plot(x, y_derivative, label="Sigmoid Derivative", color='red')
plt.xlabel("x")
plt.ylabel("σ'(x)")
plt.legend()
plt.show()