问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器学习中的逻辑回归:原理与应用

创作时间:
作者:
@小白创作中心

机器学习中的逻辑回归:原理与应用

引用
CSDN
1.
https://blog.csdn.net/wangshangshang09/article/details/146570865

逻辑回归(Logistic Regression)是一种广泛应用于分类问题的统计学习方法,尤其适用于二分类(如判断肿瘤是恶性还是良性)。尽管名字中有“回归”,但它实际上是一种分类算法,其核心思想是利用Sigmoid函数(Logistic函数)将线性回归的输出映射到概率区间(0,1),从而进行分类决策。

1. 逻辑回归的核心思想

逻辑回归的目标是建立一个模型,预测某个样本属于某一类别的概率。其关键步骤包括:

  1. 线性组合:计算输入特征的加权和(类似线性回归)。
  2. Sigmoid变换:将线性输出映射到(0,1)区间,表示概率。
  3. 决策阈值:设定一个阈值(如0.5或0.7),将概率转换为类别标签。

2. Sigmoid函数(Logistic函数)

Sigmoid函数是逻辑回归的核心,其公式为:

g(z) = \frac{1}{1 + e^{-z}}

其中:

  • z = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n
  • g(z)表示样本属于正类(如“恶性”)的概率P(y=1 | x)

逻辑回归模型:

f_{\mathbf{w}, b}(\mathbf{x}) = \frac{1}{1 + e^{-(\mathbf{w} \cdot \mathbf{x} + b)}}

概率解释:

P(y=1 \mid \mathbf{x}) = f_{\mathbf{w}, b}(\mathbf{x}), \quad P(y=0 \mid \mathbf{x}) = 1 - f_{\mathbf{w}, b}(\mathbf{x})

示例:

  • 输入:肿瘤大小x,输出f_{\mathbf{w}, b}(x) = 0.7
    → 70%概率为恶性。

Sigmoid函数的特性

  • 输出范围在 (0,1) 之间,适合表示概率。
  • 当z = 0,g(z) = 0.5(决策边界)。
  • 当z → +∞,g(z) → 1(预测为正类)。
  • 当z → -∞,g(z) → 0(预测为负类)。

3. 逻辑回归的决策规则

给定一个样本x,逻辑回归的预测过程如下:

  1. 计算z = \theta^T x(线性组合)。
  2. 计算概率P(y=1 | x) = g(z)。
  3. 设定阈值(如0.5):
  • 若P(y=1 | x) ≥ 0.5,预测 (y = 1)(正类)。
  • 若P(y=1 | x) < 0.5,预测 (y = 0)(负类)。

4. 逻辑回归的损失函数(Log Loss)

逻辑回归使用对数损失(Log Loss)作为优化目标,其公式为:

J(\theta) = -\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)})) \right]

其中:

  • h_\theta(x)是预测概率P(y=1 | x)。
  • y^{(i)}是真实标签(0或1)。
  • m是样本数量。

优化方法

  • 通常使用梯度下降(Gradient Descent)最小化损失函数。
  • 也可以使用牛顿法(Newton-Raphson)或拟牛顿法(如L-BFGS)。

5. 逻辑回归 vs. 线性回归

特性
逻辑回归
线性回归
输出
概率(0~1)
连续值((-\infty, +\infty))
函数
Sigmoid
线性
应用
分类
回归
损失函数
对数损失(Log Loss)
均方误差(MSE)

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号