均值,期望,方差,标准差,协方差
均值,期望,方差,标准差,协方差
本文将介绍统计学中的几个基本概念:均值、期望、方差、标准差和协方差。通过掷骰子等具体例子,对这些概念进行清晰的解释,并指出它们之间的区别和联系。
1. 均值
均值,其实是针对实验观察到的特征样本而言的。比如我们实验结果得出了$x_1, x_2, x_3, \ldots, x_n$这n个值,那么我们的均值计算是
$$
\frac{1}{N} \times (x_1 + x_2 + \ldots + x_n)
$$
比如我们进行掷骰子,掷了六次,点数分别为2,2,2,4,4,4,这六次的观察就是我们的样本,于是我们可以说均值为$(2+2+2+4+4+4)/6=3$。但是千万不能说期望是3,下面解释一下期望的概念。
2. 期望
期望是针对于随机变量而言的一个量,可以理解是一种站在“上帝视角”的值。针对于他的样本空间而言的。
均值是一个统计量(对观察样本的统计),期望是一种概率论概念,是一个数学特征。
首先给出定义公式:
$$
E(X) = \sum_{i} x_i p_i
$$
那么上面那个掷骰子例子对应的期望求法如下:
可以看出期望是与概率值联系在一起的,如果说概率是频率随样本趋于无穷的极限,期望就是平均数随样本趋于无穷的极限,可以看出均值和期望的联系也是大数定理联系起来的。
3. 方差 (Variance)
方差是各个数据与期望的差的平方的平均数。
在概率论与数理统计中,方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是各个数据与平均数之差的平方和的平均数,即:
$$
s = \frac{1}{n} \left[ (x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2 \right]
$$
其中,$\bar{x}$表示样本的平均数,n表示样本的数量,$x_n$表示个体,而s就表示方差。
而当用
$$
s = \frac{1}{n} \left[ (x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2 \right]
$$
作为样本X的方差的估计时,发现其并不是X的方差,而是X方差的$(n-1)/n$倍,$\frac{1}{n-1} \left[ (x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2 \right]$ 才是X的方差,用它作为X的方差的估计具有“无偏性”,所以我们总是用$\frac{1}{n-1} \sum (x_i - \bar{X})^2$来估计X的方差,并且把它叫做“样本方差”。
之所以除以$n-1$而不是除以$n$,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。
4. 标准差
方差开平方。
5. 协方差
标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
来度量各个维度偏离其均值的程度,标准差可以这么来定义:
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐就越受女孩子欢迎,嘿嘿,那必须的~结果为负值就说明负相关的,越猥琐女孩子越讨厌,可能吗?如果为0,也是就是统计上说的“相互独立”。
从协方差的定义上我们也可以看出一些显而易见的性质,如: