平均数、中位数和众数:统计学中的集中趋势测量
平均数、中位数和众数:统计学中的集中趋势测量
在统计学中,衡量数据集中趋势的三个基本概念是平均数、中位数和众数。它们各自有不同的计算方法和应用场景,对于理解数据的分布特征至关重要。本文将详细介绍这三个概念的定义、计算方法以及它们在不同情况下的应用。
平均数
平均数是测量一组数据值的集中趋势。对于连续数据,平均数是数据值的平均值。
如何使用平均数?
数据值样本的平均数用于估计真实的未知总体平均数。平均数通常用作一组数据的简单汇总统计量。它与标准差结合使用,用于计算统计区间、假设检验统计量和控制图限。
关于平均数,您可以试想哪些问题?
平均数会受到极端值影响。当有极端值或偏态分布时,平均数可以更好地衡量集中趋势。在使用平均数之前,请检查数据中的极端值,并查看图表以核验数据是否大致对称。
中位数
中位数是样本数据的第 50 个百分位数。换句话说,50% 的数据值高于中位数,50% 低于中位数。中位数是样本中数据集中趋势的另一个估计值。
众数
众数是数据中最常出现的数值。不包含重复值的数据集没有众数。具有多个值以相同频率重复的数据集可以具有多个众数。众数是另一个用于估计数据集中趋势的统计资料。
平均数体现了数据集的集中趋势
假设您有一组数据值并绘制其图表,如图 1 所示。水平坐标轴显示数据值。垂直坐标轴显示具有特定数据值的点的数量。从统计学的角度而言,这是数据值的直方图或分布。平均数估计数据的集中趋势。
图 1:数据值直方图
总体平均数
总体平均数是理论总体的集中趋势,通常未知。
让我们看一个您了解总体的范例。假设您想了解自 1950 年以来大西洋飓风登陆时的平均风速。这是一个相对较小的总体。自 1950 年以来登陆的所有大西洋飓风都有数据可循。您可以轻松计算总体平均数。
但在许多情况下,您并不会知道真正的总体平均数,原因在于未掌握关于整个总体的数据。
总体平均数在公式中用希腊字母表示「小 m」或「mu」。其符号为μ。
样本平均数
要估计未知总体平均数,须收集数据样本,然后计算该样本的平均数。
样本平均数衡量样本数据的集中趋势。这是总体平均数的估计值。
公式中样本平均数的统计符号为 x,其上方有一条线或横条;它被称为「x bar」,看起来像x̅。
样本平均数、算术平均数和样本平均值之间的区别
这些都是用于样本平均数的三个术语,具有同样的意义。
由于总体平均数通常未知,因此您会看到用于「样本平均数」的「平均数」一词。当您阅读提及「平均收入」或「平均温度」的文章时,这些文章通常是指样本数据的平均数。
不会有 50%「高于平均值」的状况。
许多人常犯一个错误,即假定 50% 的数据值高于样本平均数,另 50% 低于样本平均数。情况往往并非如此。这个错误混淆了平均数和中位数。平均数和中位数仅在某些情况下相同。
如何计算平均数
要计算平均数,请将样本中数据值的所有数字相加,然后除以拥有的数据值数目。让我们用一个简单的范例来探讨这个计算过程。
假设数据值为 4、5 和 6。计算平均数:
$\frac{(4+5+6)}{3} = \frac{15}{3} = 5$
通常,您会使用软件来计算平均数。计算平均数的公式:
$\overline{x}=\frac{Σx_i}{n}$
在上面的公式中,样本有n个数据值。每个数据值都用xi表示。求和符号 $Σ$ 表示数据值应该相加,正如范例所示。
对于未知总体平均数,总体规模通常以大写N表示。在极少数情况下,您可以计算总体平均数,公式相同但使用的是N而非n。
中位数
中位数是样本数据的第 50 个百分位数。50% 的数据值高于中位数,50% 低于中位数,这是事实。就像平均数一样,我们有一个真正的未知总体中位数和一个样本中位数。真正的总体中位数鲜为人知。
平均数和中位数都是用以估计数据集中趋势的指标,通常两者会一起报告。正如下方所示,中位数受极端数据值或不对称数据的影响较小。
如何计算中位数
要计算中位数,首先要将样本数据值从低到高排序,然后找到中间值。
通过几个简单的范例更容易理解这一点。
假设数据值又是 4、5 和 6。
首先,将值从低到高排序:4 — 5 — 6。
中间值(在此范例中为 5)是中位数。一半的数据高于中位数,另一半则低于中位数。
对于第二个范例,假设样本中有偶数个数据值,例如 7、4、5 和 6。没有单一的中间值。
首先,将数据值从低到高排序:4 – 5 – 6 – 7。
其次,找出两个中间值:5 和 6。
第三,将这两个值相加并除以 2,取平均值,结果是中位数。在我们的范例中:
$\frac{5+6}{2} = \frac{11}{2} = 5.5$
在这两个范例中,中位数是中间值。样本数据的一半高于中位数,另一半则低于中位数。
对于第二个范例,数据值是 4、5、5.5、6、7,因此 5.5 的中位数位于数据有序样本值的中间。
通常,您会使用软件来计算中位数。
众数
众数是另一用于估计数据集中趋势的统计资料。众数是最常出现的数值。
例如,假设数据值为 3、4、4、4、5 和 6。
众数为 4,因为它是最常见的值。
大多数统计软件都会计算众数。然而,在实践中,众数的使用并不像平均数或中位数那么频繁。在本页的其余部分中,我们将重点介绍后两个。
极端数据值如何影响样本平均数和样本中位数
样本平均数可能对极端数据值敏感。稍微改变一下上方范例,假设样本数据值现在是 4、5 和 12。
样本平均值为:
$\frac{4+5+12}{3} = \frac{21}{3} = 7$
样本中位数是排序数据值 4 – 5 – 12 中的中间值,即 5。
将其与之前的范例进行比较。数据值 4、5 和 6 的平均数和中位数为 5。通过将单一数据值从 6 更改为 12,中位数没有变化,但平均数从 5 变为 7。
对于较大的数据集,单一极端数据值对样本平均数的影响较大,但对样本中位数的影响较小。我们说中位数对离群值或极端数据值具有稳健性。
下方分布显示了排除离群值的数据集(图 2),然后是包含离群值的数据集(图 3)。
图 2:无离群值的数据集分布
图 3:有离群值的数据集分布
两组数据的中位数均为 44.6。无离群值的数据的平均数为 45.3,有离群值的数据的平均数为 45.6。两个直方图的坐标轴尺度都位于 20 至 90 之间。
谨慎处理!不要仅仅因为存在极端数据值而将其删除。您应该尝试查明极端数据值是错误还是异常。若是错误,那么您应该尝试更正该值。如无法将值判定为错误,那么不应忽略极端数据值。在这种情况下,您可能会决定将分析结果报告分为,包括有问题数据点和不包括有问题数据点两种情况。
例如,假设您收集血压数据。样本中一个人的收缩压为 95。这是一个较低值,但很合理。然而,同一人的舒张压为 95。这极有可能是不正确的。您可能希望找到原始数据,并尝试确认此数据点是否有误。
数据对称性如何影响样本平均数和样本中位数
当数据不对称时,样本平均数和样本中位数不同。数据不对称时,即称为呈偏态分布。
考虑三种分布:对称分布、左偏分布和右偏分布。
下方图 4 的直方图呈现几乎对称的数据。如果您从中央将图表对折,两边将会近同等大小。平均数和中位数非常相似。
图 5 的直方图呈现非对称数据。该数据会受到「重低值权重」影响,其呈左偏分布。偏度统计量为负值,平均数小于中位数。
图 6 的直方图也呈现非对称数据。该数据会受到「重高值权重」影响,其呈右偏分布。偏度为正值,平均数大于中位数。
图 4:将近对称的数据分布
图 5:非对称左偏数据
图 6:非对称右偏数据
何时使用平均数和中位数
图 7-9 显示了适合使用平均数和中位数的数据类型。
图 7:连续数据分布,可以计算样本平均数和样本中位数。
图 8:顺序型数据分布,不应计算样本平均数和样本中位数。
图 9:名目数据分布,不应计算样本平均数和样本中位数。
连续数据:适用平均数和中位数
平均数和中位数对连续数据有意义。这些数据的测量尺度使用许多可能值。部分连续数据范例如下:
- 年龄
- 血压
- 体重
- 温度
- 速度
对于所有这些范例,计算平均数和中位数有意义。
排序或名目数据:不适用平均数和中位数
平均数和中位数不适用于排序或名目数据,因为这些数据类型的测量尺度只使用少数可能值。
排序数据的样本会分成群组,且回应有既定排序。例如,在要求您以「非常不同意」到「非常同意」的尺度提供意见的调查中(图 8),您的回应即为排序数据。
对于名目数据,样本也会分成组,但没有特定排序。例如:生物性别和居住国家。在极少数情况下,当名目数据使用数值编码时,可以计算平均数。对平均数的解释将取决于编码方式。例如,如果使用 0 代表男性、1 代表女性对性别进行编码,并计算样本平均值,那么可能会得到 0.6 的值。此值代表样本中的女性比例,这很合理。对于国家/地区,如要使用数值对国家/地区名称进行编码,那么可以计算平均数。然而,这样做毫无意义;平均数将无任何有意义的解释。