交叉熵损失函数:从数学原理到直观理解
交叉熵损失函数:从数学原理到直观理解
交叉熵损失函数(Cross Entropy Loss)是机器学习和深度学习中常用的损失函数之一,尤其在分类问题中扮演着重要角色。本文将从数学原理出发,通过详细的推导过程和直观的图形解释,帮助读者深入理解交叉熵损失函数的本质及其不同形式。
1. 交叉熵损失函数的数学原理
在二分类问题中,例如逻辑回归(Logistic Regression)和神经网络(Neural Network),真实样本的标签通常表示为 [0,1],分别对应负类和正类。模型的最后通常会经过一个 Sigmoid 函数,输出一个概率值,这个概率值反映了预测为正类的可能性:概率越大,可能性越大。
Sigmoid 函数的表达式和图形如下所示:
其中 s 是模型上一层的输出,Sigmoid 函数有这样的特点:s = 0 时,g(s) = 0.5;s >> 0 时, g ≈ 1,s << 0 时,g ≈ 0。显然,g(s) 将前一级的线性输出映射到 [0,1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出。
我们已经知道,预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率:
$$
P(y=1|x) = g(s)
$$
很明显,当前样本标签为 0 的概率就可以表达成:
$$
P(y=0|x) = 1 - g(s)
$$
从极大似然性的角度出发,我们可以将这两种情况整合到一起:
$$
P(y|x) = y \cdot g(s) + (1-y) \cdot (1-g(s))
$$
重点看一下整合之后的概率表达式,我们希望的是概率 P(y|x) 越大越好。首先,我们对 P(y|x) 引入 log 函数,因为 log 运算并不会影响函数本身的单调性。则有:
$$
\log P(y|x) = \log(y \cdot g(s) + (1-y) \cdot (1-g(s)))
$$
我们希望 $\log P(y|x)$ 越大越好,反过来,只要 $\log P(y|x)$ 的负值 $-\log P(y|x)$ 越小就行了。那我们就可以引入损失函数,且令 Loss = $-\log P(y|x)$ 即可。则得到损失函数为:
$$
L = -\log(y \cdot g(s) + (1-y) \cdot (1-g(s)))
$$
非常简单,我们已经推导出了单个样本的损失函数,如果是计算 N 个样本的总的损失函数,只要将 N 个 Loss 叠加起来就可以了:
$$
L_{total} = -\frac{1}{N} \sum_{i=1}^{N} \log(y_i \cdot g(s_i) + (1-y_i) \cdot (1-g(s_i)))
$$
这样,我们已经完整地实现了交叉熵损失函数的推导过程。
2. 交叉熵损失函数的直观理解
接下来,我们从图形的角度,分析交叉熵函数,加深大家的理解。
首先,还是写出单个样本的交叉熵损失函数:
$$
L = -\log(y \cdot g(s) + (1-y) \cdot (1-g(s)))
$$
当 $y = 1$ 时:
$$
L = -\log(g(s))
$$
这时候,L 与预测输出的关系如下图所示:
看了 L 的图形,简单明了!横坐标是预测输出,纵坐标是交叉熵损失函数 L。显然,预测输出越接近真实样本标签 1,损失函数 L 越小;预测输出越接近 0,L 越大。因此,函数的变化趋势完全符合实际需要的情况。
当 $y = 0$ 时:
$$
L = -\log(1 - g(s))
$$
这时候,L 与预测输出的关系如下图所示:
同样,预测输出越接近真实样本标签 0,损失函数 L 越小;预测函数越接近 1,L 越大。函数的变化趋势也完全符合实际需要的情况。
从上面两种图,可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1,L 都表征了预测输出与 y 的差距。
另外,重点提一点的是,从图形中我们可以发现:预测输出与 y 差得越多,L 的值越大,也就是说对当前模型的 “ 惩罚 ” 越大,而且是非线性增大,是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。
3. 交叉熵损失函数的其它形式
除了上述典型形式,交叉熵损失函数还有另一种形式。这种形式下假设真实样本的标签为 +1 和 -1,分别表示正类和负类。有个已知的知识点是Sigmoid 函数具有如下性质:
$$
g(-s) = 1 - g(s)
$$
这个性质我们先放在这,待会有用。
好了,我们之前说了 $y = +1$ 时,下列等式成立:
$$
P(y=+1|x) = g(s)
$$
如果 $y = -1$ 时,并引入 Sigmoid 函数的性质,下列等式成立:
$$
P(y=-1|x) = 1 - g(s) = g(-s)
$$
重点来了,因为 y 取值为 +1 或 -1,可以把 y 值带入,将上面两个式子整合到一起:
$$
P(y|x) = g(ys)
$$
这个比较好理解,分别令 $y = +1$ 和 $y = -1$ 就能得到上面两个式子。
接下来,同样引入 log 函数,得到:
$$
\log P(y|x) = \log(g(ys))
$$
要让概率最大,反过来,只要其负数最小即可。那么就可以定义相应的损失函数为:
$$
L = -\log(g(ys))
$$
还记得 Sigmoid 函数的表达式吧?将 $g(ys)$ 带入:
$$
L = -\log(\frac{1}{1 + e^{-ys}})
$$
好咯,L 就是推导的交叉熵损失函数。如果是 N 个样本,其交叉熵损失函数为:
$$
L_{total} = -\frac{1}{N} \sum_{i=1}^{N} \log(\frac{1}{1 + e^{-y_is_i}})
$$
接下来,我们从图形化直观角度来看。当 $y = +1$ 时:
这时候,L 与上一层得分函数 s 的关系如下图所示:
横坐标是 s,纵坐标是 L。显然,s 越接近真实样本标签 1,损失函数 L 越小;s 越接近 -1,L 越大。
另一方面,当 $y = -1$ 时:
这时候,L 与上一层得分函数 s 的关系如下图所示:
同样,s 越接近真实样本标签 -1,损失函数 L 越小;s 越接近 +1,L 越大。