问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

一篇文章,用例子说明什么是“熵”

创作时间:
作者:
@小白创作中心

一篇文章,用例子说明什么是“熵”

引用
CSDN
1.
https://blog.csdn.net/courniche/article/details/145048126

熵是信息论中的一个核心概念,用于衡量信息的不确定性。本文从熵的提出背景出发,通过具体的数学推导和实例,深入浅出地解释了熵的定义、计算方法及其在信息通信中的重要应用。

一、提出“熵”概念的背景

第二次世界大战期间,军事上对无线电通信、雷达和密码技术的需求急剧增加,随着通信需求的激增,人们开始关注以下几个问题:

  • 如何可靠地传递消息?
  • 如何有效地压缩消息,减少通信占用的带宽或资源?
  • 在通信中如何对抗噪声,尽可能提高信号的准确性?

克劳德·香农(Claude Shannon)所在的贝尔实验室是当时通信技术研究的前沿机构,香农的目标是要从数学上回答上述问题,为通信系统提供理论支持。

二、“熵”概念产生的过程

1.信息量

首先要解决的问题是信息的量化,也就是通信过程中一条信息包含的“信息量”的大小。例如:

  • 如果你的朋友扔出一枚硬币,并夹在两只手掌中间,在没有打开手掌之前,想要知道硬币正反面这件事的不确定性是很大的,因此,当朋友翻开手掌并告诉你是“正面”,这条消息包含的信息量就是“大的”。
  • 如果你的对手还剩1张扑克牌,而桌面上和你手里只有1张小王,你猜测他最后1张牌是大王这件事的不确定性很小,当对手扔出最后一张牌,向你传递的这个消息的“信息量”,几乎为0,因为你已经知道了。
  • 如果你的朋友给你发送的消息是李白的《静夜思》,那么这一则消息的信息量,几乎为0,当看到题目的时候,你就已经知道后面是什么了,整首诗可以压缩为“静夜思”3个字。

注意,我们这里要讨论信息的“信息量”大小,与信息的长度无关,与信息包含内容的总量无关,只与某一段信息包含的内容是否已知有关。当要传递的消息包含你不知道、不确定的信息越多的时候,“消息量”就很大,包含已知和确定的信息越多,“消息量”就越少。通信的过程,当传递信息的“信息量”很大的时候,势必就要占用更多的通信资源,就需要对信息采用高效的编码方式、压缩方式和冗余方式来保证通信的效率和可靠性。

2.量化信息量

我们知道了,不同的信息对于收到信息的人而言,包含的“信息量”是不同的,香农希望定义一个函数来量化信息的信息量(或不确定性)。为了找到合适的函数形式,他列出了应该满足的几个性质:

(1)非负性:一条消息的信息量不应该是负的。

(2)单一事件的确定性:如果一个事件的发生是完全确定的(概率),那么它的信息量(不确定性)为0。

(3)均匀分布时不确定性最大:当一个事件发生的结果是完全均匀分布(即每个结果发生的概率相等),的值应该达到最大值,也就是说,结果均匀分布的时候,最难预测哪个结果会发生。

例如:

  • 扔硬币这个事件,硬币正面与反面出现的概率是相同的,那么每一次结果传递的信息量就是最大的;
  • 英文字母构成的消息,每个字母出现的概率是不一样的,字母e、t出现的概率比较高,字母z、q较少,而且字母之间还存在跟随特性,字母t后面出现h的概率比较高等,其中某些位置的字母是可以预测的,因此英文字母出现的情况不是均匀分布的,信息量不是最大的;
  • 英文字母组成的密码信息,由于采用了某种规则的变换,完全打乱了英文字母排列顺序,呈现出伪随机的特性,字母出现的概率接近于均匀分布,因此我们可以认为密码信息包含的信息量是最大的。

(4)可加性:如果一个事件包含的信息可以拆分成几个独立的部分(过程),那么表示整个事件的应当是几个子部分(过程)的的加权和:

-:整个事件的函数表示
-:第个子事件的函数表示
-:第个子事件发生的概率
-:子事件的总数

上面这几个性质,是用来定义描述事件信息量函数的具体要求,接下来我们看看香农找到了什么样的函数,能够满足这些要求。

3.单个事件的信息量

单个事件的信息量,我们用下面这个式子来度量:

让我们看看的图像:

  • 纵轴:信息量,事件的信息量,单位为比特(bit)
  • 横轴:概率,表示事件发生的可能性

这样定义,满足香农关于信息度量的几个要求:
(1)概率递减,信息量递增越小,事件越罕见,越大。
(2)独立事件的可加性
如果两个独立事件和发生,联合信息量应该等于两个事件信息量之和:

对数函数的性质天然满足这一条件:

(3)确定事件的信息量为0
如果某事件是确定发生的,则信息量应该为0:

此外,使用对数函数,还具有压缩效果:对数是非线性增长的函数,它将概率映射到一个更直观的尺度。例如,概率分别对应信息量1,2,3比特。

4.熵的数学形式

通常的事件,都不是由单个事件组成的,例如扔硬币,是由“正面”和“反面”两个单个事件构成的,发送英文消息,是由26个英文字母和标点符号构成的,网络数据通信,是由“0”和“1”两种信号构成的。

要找到描述通常事件信息度量的函数,香农证明了唯一满足要求的函数是:

-是事件的概率;
-是一个正的比例常数,决定了对数的底;

  • 当以2为底时,单位是“比特”(bit)
  • 香农选用了并使用以2为底的对数,方便描述通信系统中的比特(bit)概念。

这里的就叫作“熵”,香农将熵解释为随机变量的平均信息量。注意这里依旧不是信息量的总量,而是某个信息系统中随机变量的平均信息量。

5.熵的含义

信源的平均信息量:熵描述了信源在每次发送消息时的平均信息量。这为压缩提供了理论基础:压缩的极限就是熵。

最优编码长度:如果用二进制编码消息,则每条消息的平均编码长度不可能小于熵。熵可以看作是编码长度的下限。

噪声信道和容量:香农进一步在论文中提出了信道容量的概念,表明通过一个带噪声的信道传输信息时,能够传输的最大信息量(速率)等于信源熵。

三、具体的例子

说到这里,可能你对熵的理解还是存在问题,下面我们举两个具体的例子来进一步说明。

1.扔一次硬币的信息熵

扔一次硬币有两种可能的结果:正面(H)或反面(T)。假设硬币是均匀的,扔出每个结果的概率为:

根据熵的定义:

带入硬币的概率:

比特

扔一次硬币,结果的信息熵为:比特,这表示扔一次硬币的结果需要 1 比特的信息量来完全描述它的不确定性,也可以说,扔一次硬币结果包含的信息量是1比特。对照“熵”的定义,这里的“平均信息量”,是指在扔硬币过程中,每一次扔硬币的动作产生一个独立的随机信息,包含的信息量是1比特。

2.发送一个英文字母的信息熵

假设26个字母是均匀分布的,也就是出现的概率相同:

熵的定义为:

代入概率:

发送一个英文字母的信息熵为比特,也就是说发送一个字母约需要4.736比特来描述其不确定性,对照“熵”的定义,每发送一个英文字母这个独立的随机事件,其中包含的信息量是4.736比特。那么,如果发送两个独立的英文字母,总信息熵为:

四、常见的熵相关概念

1.条件熵(Conditional Entropy)

表示在已知条件下,随机变量的不确定性。例如,给定前一天的天气,当天天气的熵可能会降低。

2.相对熵(KL散度,Kullback-Leibler Divergence)

描述两个概率分布之间的差异,用来衡量一个分布P和参考分布Q的距离

3.交叉熵(Cross-Entropy)

用来衡量两个概率分布之间的平均不确定性,常用于分类问题的损失函数

我们再来回顾一下熵:熵是定量衡量随机变量的不确定性信息量的期望值,也可以说熵描述了信源在每次发送消息时的平均信息量。好了,先有个概念吧,后面还需要多看多用,才能更好地理解熵。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号