资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

交叉熵损失函数：从数学原理到直观理解

创作时间:

作者:

@小白创作中心

交叉熵损失函数：从数学原理到直观理解

引用

CSDN

https://blog.csdn.net/red_stone1/article/details/80735068

交叉熵损失函数（Cross Entropy Loss）是机器学习和深度学习中常用的损失函数之一，尤其在分类问题中扮演着重要角色。本文将从数学原理出发，通过详细的推导过程和直观的图形解释，帮助读者深入理解交叉熵损失函数的本质及其不同形式。

1. 交叉熵损失函数的数学原理

在二分类问题中，例如逻辑回归（Logistic Regression）和神经网络（Neural Network），真实样本的标签通常表示为 [0，1]，分别对应负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。

Sigmoid 函数的表达式和图形如下所示：

其中 s 是模型上一层的输出，Sigmoid 函数有这样的特点：s = 0 时，g(s) = 0.5；s >> 0 时， g ≈ 1，s << 0 时，g ≈ 0。显然，g(s) 将前一级的线性输出映射到 [0，1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出。

我们已经知道，预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率：

$$
P(y=1|x) = g(s)
$$

很明显，当前样本标签为 0 的概率就可以表达成：

$$
P(y=0|x) = 1 - g(s)
$$

从极大似然性的角度出发，我们可以将这两种情况整合到一起：

$$
P(y|x) = y \cdot g(s) + (1-y) \cdot (1-g(s))
$$

重点看一下整合之后的概率表达式，我们希望的是概率 P(y|x) 越大越好。首先，我们对 P(y|x) 引入 log 函数，因为 log 运算并不会影响函数本身的单调性。则有：

$$
\log P(y|x) = \log(y \cdot g(s) + (1-y) \cdot (1-g(s)))
$$

我们希望 $\log P(y|x)$ 越大越好，反过来，只要 $\log P(y|x)$ 的负值 $-\log P(y|x)$ 越小就行了。那我们就可以引入损失函数，且令 Loss = $-\log P(y|x)$ 即可。则得到损失函数为：

$$
L = -\log(y \cdot g(s) + (1-y) \cdot (1-g(s)))
$$

非常简单，我们已经推导出了单个样本的损失函数，如果是计算 N 个样本的总的损失函数，只要将 N 个 Loss 叠加起来就可以了：

$$
L_{total} = -\frac{1}{N} \sum_{i=1}^{N} \log(y_i \cdot g(s_i) + (1-y_i) \cdot (1-g(s_i)))
$$

这样，我们已经完整地实现了交叉熵损失函数的推导过程。

2. 交叉熵损失函数的直观理解

接下来，我们从图形的角度，分析交叉熵函数，加深大家的理解。

首先，还是写出单个样本的交叉熵损失函数：

$$
L = -\log(y \cdot g(s) + (1-y) \cdot (1-g(s)))
$$

当 $y = 1$ 时：

$$
L = -\log(g(s))
$$

这时候，L 与预测输出的关系如下图所示：

看了 L 的图形，简单明了！横坐标是预测输出，纵坐标是交叉熵损失函数 L。显然，预测输出越接近真实样本标签 1，损失函数 L 越小；预测输出越接近 0，L 越大。因此，函数的变化趋势完全符合实际需要的情况。

当 $y = 0$ 时：

$$
L = -\log(1 - g(s))
$$

这时候，L 与预测输出的关系如下图所示：

同样，预测输出越接近真实样本标签 0，损失函数 L 越小；预测函数越接近 1，L 越大。函数的变化趋势也完全符合实际需要的情况。

从上面两种图，可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1，L 都表征了预测输出与 y 的差距。

另外，重点提一点的是，从图形中我们可以发现：预测输出与 y 差得越多，L 的值越大，也就是说对当前模型的 “ 惩罚 ” 越大，而且是非线性增大，是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。

3. 交叉熵损失函数的其它形式

除了上述典型形式，交叉熵损失函数还有另一种形式。这种形式下假设真实样本的标签为 +1 和 -1，分别表示正类和负类。有个已知的知识点是Sigmoid 函数具有如下性质：

$$
g(-s) = 1 - g(s)
$$

这个性质我们先放在这，待会有用。

好了，我们之前说了 $y = +1$ 时，下列等式成立：

$$
P(y=+1|x) = g(s)
$$

如果 $y = -1$ 时，并引入 Sigmoid 函数的性质，下列等式成立：

$$
P(y=-1|x) = 1 - g(s) = g(-s)
$$

重点来了，因为 y 取值为 +1 或 -1，可以把 y 值带入，将上面两个式子整合到一起：

$$
P(y|x) = g(ys)
$$

这个比较好理解，分别令 $y = +1$ 和 $y = -1$ 就能得到上面两个式子。

接下来，同样引入 log 函数，得到：

$$
\log P(y|x) = \log(g(ys))
$$

要让概率最大，反过来，只要其负数最小即可。那么就可以定义相应的损失函数为：

$$
L = -\log(g(ys))
$$

还记得 Sigmoid 函数的表达式吧？将 $g(ys)$ 带入：

$$
L = -\log(\frac{1}{1 + e^{-ys}})
$$

好咯，L 就是推导的交叉熵损失函数。如果是 N 个样本，其交叉熵损失函数为：

$$
L_{total} = -\frac{1}{N} \sum_{i=1}^{N} \log(\frac{1}{1 + e^{-y_is_i}})
$$

接下来，我们从图形化直观角度来看。当 $y = +1$ 时：

这时候，L 与上一层得分函数 s 的关系如下图所示：

横坐标是 s，纵坐标是 L。显然，s 越接近真实样本标签 1，损失函数 L 越小；s 越接近 -1，L 越大。

另一方面，当 $y = -1$ 时：

这时候，L 与上一层得分函数 s 的关系如下图所示：

同样，s 越接近真实样本标签 -1，损失函数 L 越小；s 越接近 +1，L 越大。

热门推荐

心跳回忆：角色名字背后的秘密，你知道几个？

老年人，要小心药物性肝损害和药物性肾损害

“618”防骗指南：谨慎购物不掉坑！

金箍棒为何千余年只认孙悟空？它又名“灵阳棒”，跟悟空关系匪浅

探索改变肠道菌群的方法（如何通过调整饮食和生活方式来改善肠道菌群？）

《权力的游戏》每季第九集：一个大大的精彩的梗

探秘唐律刑法的核心原则与历史影响

重庆母亲街头摆摊抚养病童：自媒体善举引发全网关注

了解小说类型（揭示小说类型的内涵与特点）

写字楼市场冰封: 疫情后美国商业地产的困境

风光储超级电容混合储能HESS三相LC并网仿真系统构成及其应用研究

研究揭示：龋齿患病率与心血管疾病存在关联

上市公司如何做好市值管理，其实早有答案！

想体验一把冰上的速度与激情？小心这些运动风险

四磨汤口服液：传统中药的现代应用

火影忍者手游药师兜侠隐江湖深度解析：技能全攻略与实战技巧

深度探索，泉州，历史与现代交融的魅力之城——你的旅行指南

反诈进行时 | 兼职批改作业有陷阱，小心诈骗！

A股市场的"妖股"现象与散户投资策略

燃气热水器打不起火来是什么原因

揭秘翡翠齐天大圣孙悟空牌：寓意、象征与传统文化内涵解析

质量和惯性到底什么关系？有质量才有惯性，还是有惯性才有质量？

护士证是终身有效的吗？答案在这里！

你的脚红肿？瘙痒？有异味？可能感染脚真菌！这些习惯都易引起

Android GRF 更新策略简析

从无线电报到5G：射频收发机的技术演进与市场格局