贝叶斯决策论:多元高斯分布下的判别函数详解
贝叶斯决策论:多元高斯分布下的判别函数详解
贝叶斯分类器是机器学习中一种重要的分类方法,其核心是通过条件概率密度和先验概率来做出决策。在各种密度函数中,高斯密度函数(多元正态函数)因其良好的数学性质和广泛的应用场景而备受青睐。本文将从单变量高斯密度函数出发,逐步探讨多元高斯分布以及在不同情况下的判别函数。
一 单变量高斯密度函数
单变量正态或高斯密度函数,变量x遵循
x~N(μ,σ^2)
,其概率密度函数为:
$$
p(x) = \frac{1}{\sqrt{2\pi}\sigma}exp[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2]
$$
因此可以求出x的期望与方差:
- $\mu = \varepsilon[x] = \int_{-\infty}^{\infty}xp(x)dx$
- $\sigma^2 = \varepsilon[(x-\mu)^2] = \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx$
如中心极限定理所表示,大量的小的、独立的随机分布的总和等效为一个高斯分布,对于实际的概率分布而言高斯分布是一种很好的模型。
二 多元密度函数
一般的d维多元正态分布密度及其相关统计量形式如下:
其中x是一个d维列向量,μ是x的d维均值向量,Σ是d*d的协方差矩阵,这里的
(x-μ)(x-μ)T
是向量的内积。均值向量与协方差矩阵的分量形式可写为:
$$
\mu_i = E[\mathbf{x}i],; \sigma{ij}=E[(x_i-\mu_i)(x_j-\mu_j)]
$$
多元高斯分布的协方差矩阵有以下性质:
- 协方差矩阵Σ是对称且半正定的
- 协方差矩阵的对角线元素σii表示各维的方差,非对角线元素σij表明两维之间的协方差。
- 对于高斯分布来说,独立等价于不相关,所以如果
xi
与
xj
统计独立,则σij=0。
服从正态分布的随机变量的线性组合,不管这些随机变量是独立的还是非独立的,线性组合也是正态分布。多元高斯分布有线性不变性:
三 正态分布下的判别函数
我们之前通过后验概率构造的判别函数g(x):
$$
g_i(x)=lnp(\textbf{x}|\omega_i)+lnP(\omega_i)
$$
如果类条件概率密度函数
p(x|ωi)
是多元正态分布
N(μi,Σi)
,带入表达式可以化简为:
$$
g_i(\mathbf{x})=-\frac{1}{2}(\mathbf{x}-\mu_i)^T\Sigma_i^{-1}(\mathbf{x}-\mu_i)-\frac{1}{2}ln|\Sigma_i|+lnP(\omega_i)-\frac{d}{2}ln2\pi
$$
其中最后一项与x无关,实际计算过程中可以省略。我们讨论一些特殊情况下的判别函数以及分类结果。
3.1Σi=σ2I
这种情况发生在各特征统计独立,并且每个特征的具有相同的方差σ2时。这种情况下所有类型的协方差矩阵相同,都是对角矩阵且为单位矩阵I与方差的乘积。因此Σi−1=(1σ2/I),因此(6)式可以化简为:
$$
||(\textbf{x}-\mu_i)^2||=(x-\mu_i)^t(x-\mu_i)
$$
继续观察。
一个线性分类器的判定面是一些超平面,这些超平面是由线性方程gi(x)=gj(x)来确定的,以上的例子中,此方程可以写成:
继续变换:
由于w=μi−μj,特征空间中属于i类的类别空间Ri与属于j类的类别空间Rj分开的超平面与两个空间的中心点的连线垂直,当所有类别的先验概率相等时,x0就是中心点**。
这种情况下,最优判决规则从计算g(x)更直观的改为——最小距离分类器:为了将某一特征向量x归类,通过测量每一个x到c个均值向量中的每一个欧氏距离(二维平面内的距离),并将x归为离他最近的那一类中。
- 下图为先验概率相等的情况下的例子:
- 当先验概率不相等时判决边界可能出现偏移:
3.2Σi=Σ
第二种情况是所有类的协方差矩阵都相等,但各自的均值向量μi是任意的,则由式(6)可得
由于判别函数gi(x)是线性的,判决边界同样是超平面,同3.1 计算Ri与Rj的边界
由于W=Σ−1(μi−μj)并非朝着μi−μj的方向,因而分离Ri与Rj的超平面也并非与均值向量间的连线垂直正交,但如果先验概率相等,x0还是均值向量的中心点。
3.3Σi=任意
一般情况下,每一类的协方差矩阵都是不同的,式(6)中唯一可以去掉的只有(d/2)ln2π,
在两类问题中,判定面是超二次曲面,甚至在一维情况下,其判决区域可以不连通。
四 例:二维高斯分布数据的判决区域
尝试计算上图的贝叶斯判别边界。以ω1表示红点的集合,ω2表示红点的集合。在这里我们假设只需要计算均值与方差,利用离散随机变量的均值与方差的定义可得。以ω1的计算为例:
因此:
$$
\mu_1=\begin{bmatrix} 3\ 6 \end{bmatrix};\Sigma_1=\begin{pmatrix} 1/2 &0 \ 0& 2 \end{pmatrix} \mu_2=\begin{bmatrix} 3\ -2 \end{bmatrix}; \Sigma_2=\begin{pmatrix} 2 &0 \ 0& 2 \end{pmatrix}
$$
因为Σ1与Σ2不相同,ω1与ω2方差也不相同,属于第三类:Σi=任意。假设两类分布的先验概率相等(P(ω1)=P(ω2))带入到
3.3节
的公式中,则g1(x)=g2(x)的判别边界如图中的顶点是(3 , 1.83)二次曲线,为:
$$
x_2=3.514-1.125x_1+0.1875x_1^2
$$
尽管两种分布的数据沿x2方向的方差相等(协方差矩阵的第二行),但判别边界并不通过两均值向量([3,6];[3,2])的中点。这是因为对于ω1分布而言,沿x1方向的概率分布相比与ω2分布受到挤压(ω2样本沿x1分布的更宽,且协方差矩阵第一行ω2更大),由于总的先验概率相等(整个特征空间的积分【面积】相等),那么沿x2方向的分布将要增加(相对于ω2),因此判别边界位于两均值向量的中点偏ω2方向。
参考
【1】模式分类(第二版)
【2】https://www.cnblogs.com/Determined22/p/6347778.html