资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

机器学习中的逻辑回归：原理与应用

创作时间:

作者:

@小白创作中心

机器学习中的逻辑回归：原理与应用

引用

CSDN

https://blog.csdn.net/wangshangshang09/article/details/146570865

逻辑回归（Logistic Regression）是一种广泛应用于分类问题的统计学习方法，尤其适用于二分类（如判断肿瘤是恶性还是良性）。尽管名字中有“回归”，但它实际上是一种分类算法，其核心思想是利用Sigmoid函数（Logistic函数）将线性回归的输出映射到概率区间（0,1），从而进行分类决策。

1. 逻辑回归的核心思想

逻辑回归的目标是建立一个模型，预测某个样本属于某一类别的概率。其关键步骤包括：

线性组合：计算输入特征的加权和（类似线性回归）。
Sigmoid变换：将线性输出映射到(0,1)区间，表示概率。
决策阈值：设定一个阈值（如0.5或0.7），将概率转换为类别标签。

2. Sigmoid函数（Logistic函数）

Sigmoid函数是逻辑回归的核心，其公式为：

g(z) = \frac{1}{1 + e^{-z}}

其中：

z = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n
g(z)表示样本属于正类（如“恶性”）的概率P(y=1 | x)

逻辑回归模型：

f_{\mathbf{w}, b}(\mathbf{x}) = \frac{1}{1 + e^{-(\mathbf{w} \cdot \mathbf{x} + b)}}

概率解释：

P(y=1 \mid \mathbf{x}) = f_{\mathbf{w}, b}(\mathbf{x}), \quad P(y=0 \mid \mathbf{x}) = 1 - f_{\mathbf{w}, b}(\mathbf{x})

示例：

输入：肿瘤大小x，输出f_{\mathbf{w}, b}(x) = 0.7
→ 70%概率为恶性。

Sigmoid函数的特性：

输出范围在 (0,1) 之间，适合表示概率。
当z = 0，g(z) = 0.5（决策边界）。
当z → +∞，g(z) → 1（预测为正类）。
当z → -∞，g(z) → 0（预测为负类）。

3. 逻辑回归的决策规则

给定一个样本x，逻辑回归的预测过程如下：

计算z = \theta^T x（线性组合）。
计算概率P(y=1 | x) = g(z)。
设定阈值（如0.5）：

若P(y=1 | x) ≥ 0.5，预测 (y = 1)（正类）。
若P(y=1 | x) < 0.5，预测 (y = 0)（负类）。

4. 逻辑回归的损失函数（Log Loss）

逻辑回归使用对数损失（Log Loss）作为优化目标，其公式为：

J(\theta) = -\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)})) \right]

其中：

h_\theta(x)是预测概率P(y=1 | x)。
y^{(i)}是真实标签（0或1）。
m是样本数量。

优化方法：

通常使用梯度下降（Gradient Descent）最小化损失函数。
也可以使用牛顿法（Newton-Raphson）或拟牛顿法（如L-BFGS）。

5. 逻辑回归 vs. 线性回归

特性	逻辑回归	线性回归
输出	概率（0~1）	连续值（(-\infty, +\infty)）
函数	Sigmoid	线性
应用	分类	回归
损失函数	对数损失（Log Loss）	均方误差（MSE）