问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

从线性回归到Logistic回归:一个直观的数学推导

创作时间:
作者:
@小白创作中心

从线性回归到Logistic回归:一个直观的数学推导

引用
CSDN
1.
https://blog.csdn.net/zengbowengood/article/details/104873012

在机器学习和统计学中,Logistic回归模型是一个非常重要的分类算法。本文将从线性回归的局限性出发,逐步推导出Logistic回归模型的数学表达式,帮助读者理解这一模型的原理和特点。

线性回归的局限性

当我们研究某一结果(y)与一系列因素(x1, x2, ..., xn)之间的关系时,最直观的想法是建立一个多元线性回归模型:

$$
y = \alpha_1x_1 + \alpha_2x_2 + \cdots + \alpha_nx_n
$$

如果结果y是一个数值型变量,上述模型可以很好地解释各个因素对结果的影响。但是,当结果y是一个二分类变量(如0-1)或者表示事件发生的概率(0~1)时,这种线性关系就显得不够敏感。因为即使某个关键因素(xi)发生微小变化,结果y的变化也可能微乎其微。

Logit变换的引入

为了克服线性回归的这一局限性,人们引入了Logit变换。Logit变换的核心思想是通过一个非线性变换,使得自变量的微小变化能够引起因变量的显著变化。

从对数函数的图像来看,其在(0,1)区间内的变化非常剧烈,这正好符合我们对模型的期望:即自变量的微小变化能够导致因变量的显著变化。因此,我们让因变量取对数,得到:

$$
\log(y) = \alpha_1x_1 + \alpha_2x_2 + \cdots + \alpha_nx_n
$$

虽然上述变换解决了因变量对自变量变化的敏感性问题,但同时也限制了y的取值范围为(0,+∞)。然而,一个事件的发生与否应该是调和对称的,也就是说,事件发生与不发生的概率应该具有对立性。因此,我们需要引入"几率"的概念。

几率的概念

几率(odds)是指事件发生的概率与不发生的概率之比。假设事件A发生的概率为p,不发生的概率为1-p,那么事件A的几率为:

$$
odds(A) = \frac{p}{1-p}
$$

几率具有很好的对称性,它反映了事件发生与不发生的对立关系。我们来看一下概率和几率的关系:

  • 当概率p从0.01增大到0.99时,几率也从0.01随之增大到99,两者具有很好的正相关性。
  • 当p趋近于0时,几率也趋近于0;当p趋近于1时,几率趋近于无穷大。

因此,几率的取值范围恰好是(0,+∞),这符合我们的预期。

Logistic模型的推导

由于概率和几率之间存在密切的对应关系,我们可以尝试用几率来代替概率,这样既能保持对自变量变化的敏感性,又能保持结果的对称性。于是我们得到:

$$
\log\left(\frac{p}{1-p}\right) = \alpha_1x_1 + \alpha_2x_2 + \cdots + \alpha_nx_n
$$

为了使表达式更加简洁,我们可以将等式左边的对数改为自然对数ln,并将等式右边改写为向量乘积形式:

$$
\ln\left(\frac{p}{1-p}\right) = \alpha X
$$

其中,$\alpha = (\alpha_1, \alpha_2, \cdots, \alpha_n)$,$X = (x_1, x_2, \cdots, x_n)^T$。

通过求解上述方程,我们得到:

$$
p = \frac{e^{\alpha X}}{1 + e^{\alpha X}}
$$

这就是我们熟悉的Logistic模型。其图像如下所示:

从图中可以看出,Logistic函数的图像是一条S型曲线,又称为Sigmoid曲线。这条曲线以(0,0.5)为中心,曲线在中心位置变化速度最快,在两端的变化速率较慢。这种特性使得Logistic模型非常适合处理二分类问题,能够将输入映射到(0,1)区间,从而表示事件发生的概率。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号