方差的前世今生(极差、离差、平均差、方差)
方差的前世今生(极差、离差、平均差、方差)
方差是统计学中衡量数据波动程度的重要指标。本文将从极差、离差、平均差等概念出发,逐步引出方差的定义和计算方法,帮助读者理解方差是如何产生的,以及为什么方差能更好地反映数据的离散程度。
一、数据波动的图形表示
在往期文章《数据的分析(初中)》中我们对什么是数据的离散程度进行了解释,并借助直线两边的三点图对其进行形象化,我们今天还是借助直线和直线两边的点来一步一步地引出方差。
如下图所示,每个点代表一个数据,点纵坐标值=数据的值,将点沿x轴方向等距排开,蓝色水平直线y=x¯代表平均数,可看出数据在直线附近上下波动:
二、方差的前世
1)当图上只有两个点时,如何评价两图形中点的波动情况:
可用两点离直线的距离之和(d₁+d₂)来比较两组数据的波动情况,如下图所示,d₁+d₂实际就是两点纵坐标之差,d₁+d₂=|x₁−x₂|=max(x₁,x₂)−min(x₁,x₂)。
备注:
①max(a,b,c,……):表示a、b、c、……中最大的数;
②min(a,b,c,……):表示a、b、c、……中最小的数。
2)当直线两边有多个点时呢?
如下两图所示,如何定量的分析图中6个点的波动程度哪个更大?
从图中可以看出来,右图波动的范围更大,波动范围可用(1)中的公式max(x₁,x₂,……)−min(x₁,x₂,……)表示,我们将其称为极差,表示数据最大波动范围。
那你能肯定的说右图的数据的离散度更高吗?右图中也有两个离平均线很近的点。所以我们将每个点离直线的距离累加起来,比较距离和的大小,我们将每个数据与参照值(如平均数)的差称为离差,距离为离差的绝对值,公式如下:
备注:这里距离和并不是离差和,而是离差的绝对值之和,任何一组统计数据的离差和=0,计算如下:
3)当两图中点的数目不一致时,怎么办?
如下图所示,右图比左图多两个点,其它点位置相同,如果直接比较两图中各点到直线的距离和的大小来说明离散程度就不公平了,会让原本离散程度不大的数据,因数据量大而得到离散度高的结论。
所以为了让比试更加公平,我们将每组数据的距离和都除以其数据个数n,我们将其称为平均差,计算公式如下:
三、方差的诞生
1、诞生
平均差公式的计算,首先要去绝对值符号,这给计算带来了麻烦,是否有什么办法,不用绝对值,同样能比较两图点到直线距离的和的差异?
距离具有非负性,用绝对值表示,实数的平方也具有非负性,而且两个数绝对值的大小关系,与其平方的大小关系一致,即:
∵a²≥0恒成立,且:若|a|>|b|,则a²>b²
∴可以用离差平方和代替距离和
∴方差(s²)代替了平均差
公式如下:
2、方差优于平均差的另一个原因
方差不仅解决了去绝对值符号的麻烦,而且在数据波动的程度上的表现更优于平均差
1)实例体会
例1、比如下列两组数据,哪组数据波动更大?
分析:
1)图形比较:两组数据,平均数都是0,将两组数据用图形表示如下:
上图可以看出,橙色线波动幅度大于绿色折线的波动幅度
2)我们再分别计算两组数距地平均差、方差,进行定量比较,结果如下:
平方差比较:
第一组数据平均差=4+6+6+4=20
第二组数据平均差=1+9+9+1=20
方差比较:
第一组数据方差=4²+6²+6²+4²=104
第二组数据方差=1²+9²+9²+1²=164
两组数据的平均差相同,但是方差不同,第二组数据方差大于第一组,与我们从图上直观感知一致,所以从这个例子可以看出方差对波动程度的体现比平均差更好。可以也可以从函数的角度理解方差对数距离散程度的体现比平均差好。
2)理论解释
我们将数据看做是未知数x,方差中的每一项都是如下二次函数的xi对应的函数值:
该二次函数的对称轴为x=x ̅,开口向上,如下所示,函数值y随x的增长速度是随x远离对称轴而越来越快,离平均数x ̅距离越远的相同的△x对应更大的△y,我们说y随x呈指数增长。
而平均差对应的由两个一次函数组成的分段函数,如上图橙色直线所示,同样关于x=x ̅对称,y值是随x远离对成轴均匀增长的。
所以方差对波动情况的反应是区分数据离参照值的远近的,离得远的,对方差贡献度更大,所以方差对数据波动情况的反应比平均差更好。