资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

方差：衡量数据波动性的关键指标

创作时间:

2025-01-22 03:50:13

作者:

@小白创作中心

方差：衡量数据波动性的关键指标

方差是统计学中衡量数据波动性的重要指标，广泛应用于金融、机器学习、医学研究等多个领域。本文将从方差的定义、计算方法、性质及其实际应用等方面进行详细阐述，帮助读者全面理解这一关键概念。

历史渊源

方差（variance）这一概念最早由罗纳德·费希尔（Ronald Fisher）在1918年发表的论文《孟德尔遗传假定下的亲缘之间的相关性》中提出。到了20世纪30年代，行为科学家开始采用方差分析方法。二战后，随着科学研究的繁荣，方差分析逐渐成为验证实验结果有效性和确保研究科学性的关键工具之一。

定义与计算

方差是刻画随机变量在其中心位置附近散布程度的数学特征，反映了随机变量取值的离散程度。其常用符号有σ²、s²、Var(X)、D(X)等。对于一个服从分布F的随机变量X，其方差定义为：

Var(X) = E[(X-μ)²]

其中E(X)表示X的期望（即均值）。这个定义适用于所有类型的随机变量，包括连续和离散分布等。

方差的表达式可展开如下：

Var(X) = E[X²] - (E[X])²

即Var(X) = E[X²] - μ²，方差的这个形式在计算上往往较为方便。

方差也可以视作随机变量与自身的协方差：

离散型随机变量

设X为离散型随机变量，且数学期望E(X)存在。若X取值为x1, x2, ..., xn，对应概率为p1, p2, ..., pn，则X的方差Var(X)为：

Var(X) = Σ pi * (xi - μ)²

将上式展开后可得：

Var(X) = Σ pi * xi² - μ²

连续型随机变量

设X为连续型随机变量，其密度函数为f(x)，且数学期望E(X)存在，则X的方差Var(X)为：

Var(X) = ∫ (x - μ)² * f(x) dx

将上式展开后可得：

Var(X) = ∫ x² * f(x) dx - μ²

矩生成函数计算

在概率论和统计学中，矩生成函数（Moment Generating Function，简称MGF）是一个随机变量的一个重要特征函数，用来生成其矩。对于随机变量X，假设它的矩生成函数存在，则其矩生成函数定义为：

M_X(t) = E[e^(tX)]

矩生成函数M_X(t)可以在t=0附近的某个区间内展开成幂级数：

M_X(t) = 1 + t * E[X] + (t²/2!) * E[X²] + ...

该展开式中各项的系数为X的矩，因此矩生成函数在t=0处的导数可以提供随机变量X的矩信息。利用矩生成函数M_X(t)计在t=0处的前几阶导数，可以得到均值E[X]和二阶矩E[X²]，从而计算方差。

具体步骤如下：

计算均值E[X]：均值可以通过矩生成函数的导数在t=0处求得：

E[X] = M_X'(0)

计算二阶矩E[X²]：二阶矩可以通过矩生成函数的二阶导数在t=0处求得：

E[X²] = M_X''(0)

计算方差：利用方差的定义Var(X) = E[X²] - (E[X])²可以得到：

Var(X) = M_X''(0) - (M_X'(0))²

方差的意义

方差用于刻画随机变量在其中心位置附近散布程度的数学特征。当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。因此方差越大，数据的波动越大；方差越小，数据的波动就越小。

设随机变量X有均值μ。试验中，X取的值不会恰好为a，而会有所偏离，而偏移的量(X - μ)本身也是随机的。我们要找到一个量来刻画这个偏离，就不能取(X - μ)的均值，因为E[X - μ] = 0，即正负偏离彼此抵消了。一种解决办法是取|X - μ|以消除符号，再取其均值E[|X - μ|]，作为变量X取值的散布程度的数字特征，E[|X - μ|]被称为X的“平均绝对差”。但是，由于绝对值在数学上处理不方便，人们就考虑了另一种做法：先把(X - μ)平方以消去符号，然后取其均值得到E[(X - μ)²]，把它作为X取值散布度的衡量。这个量就叫作X的“方差”，即“差的平方”。

方差的性质

方差之所以成为刻画散布度的最重要的数字特征，原因之一是它具有一些优良的数学性质：

方差是非负数。
常数的方差为0。
设C为随机变量，a为常数，则Var(aC) = a²Var(C)。
若C为常数，则Var(C + X) = Var(X)。
设X与Y为两个随机变量，则Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)。特别地，当X, Y相互独立时，Cov(X, Y) = 0，则Var(X + Y) = Var(X) + Var(Y)。

常见分布的方差

离散型

X服从两点分布，则Var(X) = p(1-p)
X服从超几何分布，即X~H(N, M, n)，则Var(X) = n * (M/N) * ((N-M)/N) * ((N-n)/(N-1))
X服从二项分布，即X~B(n, p)，则Var(X) = np(1-p)
X服从泊松分布，即X~P(λ)，则Var(X) = λ

连续型

X服从均匀分布，即X~U(a, b)，则Var(X) = (b-a)²/12
X服从指数分布，即X~Exp(λ)，则Var(X) = 1/λ²
X服从正态分布，即X~N(μ, σ²)，则Var(X) = σ²
X服从标准正态分布，即X~N(0, 1)，则Var(X) = 1

样本方差

有偏样本方差

在许多实际情况下，总体的真实方差无法事先知道，必须从总体中抽取样本进行计算。下面我们从总体中有放回抽取n个样本X1, X2, ..., Xn，其中n < N，并用该样本来估计总体的方差：

S² = (1/n) * Σ (Xi - X̄)²

此处，X̄表示样本均值：

X̄ = (1/n) * Σ Xi

由于X̄是随机选取的，X̄和S²都是随机变量，它们的期望值可以用从总体中抽取的所有可能的容量为n的样本X1, X2, ..., Xn来估计。对于S²即为：

E[S²] = (n-1)/n * σ²

因此，S²给出的是总体方差的有偏估计量，偏差为-(1/n)σ²。S²被称为有偏样本方差。

无偏样本方差

为了得到无偏估计，即由样本得到的统计量的期望与总体一致，我们需要将偏差校正，得到无偏样本方差，记为S_unbiased²：

S_unbiased² = (1/(n-1)) * Σ (Xi - X̄)²

这个校正被称为贝塞尔校正。由于S_unbiased²的自由度为n-1，这正好是正确的除数。一个解释如下：一共有n个样本，有n个自由度。用X̄去估计方差σ²，自由度本应为n。但总体均值μ也未知，用X̄去估计，用掉了一个自由度，故只剩下n-1个自由度。如果总体均值μ已知，则可以用(1/n) * Σ (Xi - μ)²去估计σ²，这里分母为n，不需要改为n-1，因为此处n个自由度全保留下了。

应用领域

金融与投资分析

方差在金融与投资分析中用于衡量资产收益波动与金融资产的风险高低，方差越大风险越高，方差越小风险越低。例如在Markowitz的均值-方差模型（MV模型）中，通过优化投资组合的方差来最小化风险，为投资者寻找期望回报和风险的平衡点。

质量检测误差控制

质量检测的误差往往会呈现出正态分布的特性。根据正态分布的理论，大多数观测值会集中在平均值μ附近，偏离平均值的幅度随着距离增加而减少。对于一个标准的正态分布，数据在平均值上下各2倍标准差（方差的算术平方根）σ的区间内覆盖了约95.45%的样本数据。这意味着，在这一范围内的数据可以被视为正常波动范围，而超过这个范围的波动则较为少见。

如果我们考察3倍标准差3σ的区间，大约99.73%的观测值会落在这一范围内。换句话说，落在这个区间之外的观测值的可能性非常低，仅约为0.27%。因此，μ ± 2σ和μ ± 3σ通常被设定为质量控制图中的警戒线，标志着数据可能已经超出正常波动的范围，需要引起重视。