概率论符号详解:分号、逗号和竖线在概率公式中的含义
概率论符号详解:分号、逗号和竖线在概率公式中的含义
概率论是机器学习和深度学习的重要数学基础,其中的符号表示方法和概念理解对于学习者来说往往是一个难点。本文将详细介绍概率论中常用的三种符号:分号、逗号和竖线在概率公式中的含义,并结合扩散模型中的具体例子,帮助读者更好地理解这些概念。
符号优先级
概率公式中一共有三种符号:分号 ;、逗号 ,、竖线 |。
分号
;代表前后是两类东西,以概率P(x;θ)为例,分号前面是x样本,分号后边是模型参数。分号前的表示的是这个式子用来预测分布的随机变量x,分号后的表示所需的相关参数θ。逗号
,代表两个事件同时发生的概率,逗号连接两个事件,有时可以省略,如联合概率P(AB),等价于P(A,B)竖线
|代表 if,以条件概率P(A|B)为例,A,B是随机试验E的两个随机试验,P(A|B)就是在B事件发生的条件下,发生A事件的概率,结合图进行理解:
优先级:, > | > ;
例子1:P(A|B,C) 表示在 B,C 的条件下,发生 A 的概率。
例子2:P(y∣x ; α,ω ) 表示:x 发生条件下 y 的条件概率,该条件概率模型用参数 α,ω 建模(或者说用参数 a,ω 表示)。
注意:
p ( x ∣ θ )不总是代表条件概率,也就是说p ( x ∣ θ )不代表条件概率时与p ( x ; θ )等价。而一般地,写竖杠表示条件概率,是随机变量。p ( x ; θ )中,分号后的表示待估参数(是固定的,只是当前未知),应该可以直接认为是p ( x ),加了,是为了强调说明这里有个θ的参数,p ( x ; θ )意思是随机变量X = x的概率。在贝叶斯理论下又叫X = x的先验概率。
和扩散模型推导公式的联系
根据以上讨论的这些,现在讨论一个比较复杂的情况。比如,N ( x ; 0 , I ) 的意思是什么?
我们知道,N ( 0 , I ) 表示标准高斯分布,均值为 0,方差为 1,其本质上也是一个概率密度函数
$$
f(x) = \frac{1}{{\sigma \sqrt{2\pi}}} e^{ -\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}
$$
(标准高斯分布情况下为)
$$
f(x) = \frac{1}{{\sqrt{2\pi}}} e^{ -\frac{x^2}{2}}
$$
从这里可以发现,一般的函数我们都是强调自变量本身(比如 x),而在概率论里面有时候强调的是函数参数本身(比如高斯分布的均值和方差),而淡化了输入变量 x。因此 N ( x ; 0 , I ) 相比与 N ( 0 , I ) 的区别就在于显式强调了函数的输入为 x。
这下,就好理解扩散模型中的噪声公式了:
那么,q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ),这个公式何意义?
这个东西分多步看。首先,函数本身是个条件概率分布,q ( x t ∣ x t − 1 ) 表示 x t − 1 已知的情况下,x t 的分布(x t 取各种值的概率)。而后面的这个高斯分布则强调了其输入自变量为 x t(因为是 x t 的概率密度函数,所以自变量当然是 x t),而高斯分布的均值和方差则分别为
$$
\sqrt{1-\beta_t }x_{t-1} 和 \beta_t I
$$
与条件分布的条件 x t − 1 有关。
全概率(概率函数连乘)
图示可表示为:
参考: