贝塔分布(Beta Distribution)简介及其应用
贝塔分布(Beta Distribution)简介及其应用
贝塔分布(Beta Distribution)是一种在[0, 1]区间上定义的连续概率分布,广泛应用于统计学和机器学习领域。它具有两个形状参数α和β,能够灵活地拟合各种形状的概率密度曲线。本文将从贝塔分布的定义出发,通过具体案例深入探讨其在实际问题中的应用。
一、贝塔分布的定义
贝塔分布是一个连续的概率分布,只有两个参数。它最重要的应用是为某项实验的成功概率建模。
Beta分布是一个定义在[0, 1]区间上的连续概率分布族,它有两个正值参数,称为形状参数,一般用α和β表示。在贝叶斯推断中,Beta分布是Bernoulli、二项分布、负二项分布和几何分布的共轭先验分布。Beta分布的概率密度函数形式如下:
$$
f(x;\alpha,\beta) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1} = \frac{1}{\mathrm{B}(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}
$$
这里的Γ表示gamma函数。
Beta分布的均值是:
$$
\frac{\alpha}{\alpha+\beta}
$$
方差是:
$$
\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}
$$
Beta分布的图形:
(1)beta分布的概率密度函数:
(2)beta分布的累计概率密度函数:
从Beta分布的概率密度函数的图形我们可以看出,Beta分布有很多种形状,但都是在[0, 1]区间内,因此Beta分布可以描述各种[0, 1]区间内的形状(事件)。因此,它特别适合为某件事发生或者成功的概率建模。同时,当α = 1,β = 1的时候,它就是一个均匀分布。
二、贝塔分布的应用举例
假设一个概率实验只有两种结果,一个是成功,概率是X,另一个是失败,概率为1 - X。其中,X的值我们是不知道的,但是它所有可能的情况也是等概率的。如果我们对X的不确定性用一种方式描述,那么,可以认为X是一个来自于[0, 1]区间的均匀分布的样本。这是很合理的,因为X只可能是[0, 1]之间的某个值。同时,我们对X也一无所知,认为它是[0, 1]之间任何一个可能的值。这些都与[0, 1]均匀分布的性质契合。现在,假设我们做了n次独立重复的实验,我们观察到k次成功,n - k次失败。这时候我们就可以使用这些实验结果来修订之前的假设了。换句话说,我们就要计算X的条件概率,其条件是我们观察到的成功次数和失败次数。这里计算的结果就是Beta分布了。在这里,在总共n次实验,k次成功的条件下,X的条件概率是一个Beta分布,其参数是k + 1和n - k + 1。
1. 为棒球运动员的击球率建模
在棒球运动中,有个叫平均击球率的概念。就是用一个运动员击中棒球的次数除以他总的击球数量。一般情况下,棒球运动员的击球概率在0.266左右。高于这个值就是不错的运动员了。
假设我们要预测一个运动员在某个赛季的击球率,我们可以使用已有的数据计算。但是在赛季刚开始的时候,他击球次数少,因此无法准确预测。比如他只打了一次球,那击球率就是1或者0,这个显然是不对的,我们也不会这么预测。因为我们都有一个先验期望。即根据历史情况,我们认为一个运动员大概的击球率应当是在0.215到0.360之间。因此,当一个运动员在赛季开始就被三振出局,那么我们可以预期这个运动员的击球率可能会略低于平均值,但他不可能是0。
那么,在这个运动员的例子中,关于在赛季开始的击球情况,可以使用二项式分布表示,也就是一系列击球成功和失败的实验(假设之间相互独立)。同时,我们也会给这个数据一个先验期望(即统计中的先验知识),这个先验的分布一般就是Beta分布。这里的Beta分布就是用来修正我们观测到的运动员的击球率的(简单来说就是即便开始这个运动员被三振出局了,我们也只会预测他的击球率可能低于平均水平,但不会是0)。
假设该用户的击球率的分布是一个参数为θ的分布(这里θ既表示一个分布,也是这个分布的参数。因为在概率图模型中,我们经常使用某个分布的参数来代替说明某个模型),也就是说θ是用户击球成功的概率。假设,到目前为止,用户在这个赛季总共打了n次球,击中的次数是x,这是一个二项式分布,即p(y | θ) = Binomial(x; n, θ)。我们的目标就是推导θ分布的形式并估算这个参数的值。这就变成了在贝叶斯推断中的求后验概率的问题了:
$$
p(\theta | y, \alpha, \beta) = \frac{p(y | \theta) p(\theta | \alpha, \beta)}{p(y)}
$$
在这里,分母p(y)是数据结果,也就是常数。分子第一个项是二项式分布,即p(y | θ) = θ^x(1-θ)^(n-x),分子的第二项是Beta分布的结果了。详细结果后面再说。在这里,最后我们会发现θ也是一个Beta分布。其结果为
$$
Beta(\alpha+x, \beta+(n-x))
$$
比如,假设所有的运动员击球率在0.27左右,范围一般是0.21到0.35之间。这个可以用参数α = 81和β = 219的Beta分布表示,即Beta(81, 219)。为什么参数取这两个值呢?因为这两个参数的Beta分布的均值是0.27,主要的区间是[0.2, 0.35]。假设某个用户击球300次,成功100次,那么,根据计算的结果,用户的击球率的分布应当是Beta(181, 419),其概率大约是均值0.303,要比平均水平略高。
2. 为顺序统计量建模
假设有个机器可以随机产生[0, 1]之间的随机数,机器运行10次,第7大的数是什么,偏离不超过0.01?
这个问题的数学化表达如下:
(1)X1, X2, ..., Xn ∼ Uniform(0,1), i.i.d.
(2)将这n个随机变量排序得到顺序统计量X(1), X(2), ..., X(n)
(3)X(k)的分布是什么?
我们可以假设计算Xk落在区间[x, x+Δx]上的概率:
$$
P(x \leq X_k \leq (x + \Delta x)) = ?
$$
我们将区间分成三个部分[0, x), [x, x+Δx], [x+Δx, 1]。假设只有1个数落在区间[x, x+Δx]内,那么该事件可以表示:
$$
E=\left{X_1 \in[x, x+\Delta x], X_i \in[0, x), X_j \in(x+\Delta x, 1]\right}
$$
其中,i = 2, ..., k,j = k+1, ..., n
从而有:
$$
P(E) = x^{k-1} (1 - x - \Delta x)^{n-k} \Delta x = x^{k-1} (1 - x)^{n-k} \Delta x + o(\Delta x)
$$
其中o(Δx)表示Δx的高阶无穷小。根据推断,落在[x, x+Δx]区间的事件超过一个,则对应的事件概率就是o(Δx)。进而我们可以得到Xk的概率密度为:
$$
f(x) = \frac{\Gamma(n+1)}{\Gamma(k) \Gamma(n-k+1)} x^{k-1}(1-x)^{n-k} = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha-1}(1-x)^{\beta-1}
$$
上式即为一般意义上的beta分布。