百分位数的概念、计算及应用
百分位数的概念、计算及应用
百分位数是位于按一定顺序排列的一组数据中某一个百分位置的数值,以 ${P}_{r}$ 表示,其中 $r$ 是区间 $\left[1,99\right]$ 上的整数。一个百分位数 ${P}_{r}$ 将总体或样本的全部观测值分为两部分,至少有 $r\mathrm{%}$ 的观测值小于或等于它,且至少有 $\left(100-r\right)\mathrm{%}$ 的观测值大于或等于它。当 $r\mathrm{%}=50\mathrm{%}$ 时,${P}_{r}$ 即对应中位数。
我们在生活中经常应用百分位数,例如,“全班有 $25\mathrm{%}$ 的人某科考试成绩低于 83 分”,这句话的意思是全班小于或等于 83 分的人数不少于全班人数的 $25\mathrm{%}$ ,大于或等于 83 分的人数不少于 $1-25\mathrm{%}=75\mathrm{%}$ 。这时,我们称 83 为所有成绩的第 25 百分位数。
如何求一组观测数据的百分位数呢?
首先是确定位置,然后是求出对应的百分位数。下面我们以计算 ${P}_{25}$ 为例进行说明:
设观测数据已经按从小到大的顺序排列,如 ${x}_{1},{x}_{2},\cdots ,{x}_{n}$ 。
第一步,计算 $c=n×25\mathrm{%}$ ;
第二步,如果 $c$ 不是整数,用 $m$ 表示比 $c$ 大的最小整数,则所求的 ${P}_{25}$ 是 ${x}_{m}$ ,如果 $c$ 是整数,则所求的 ${P}_{25}$ 是 $\frac{{x}_{c}+{x}_{c+1}}{2}$ 。
对于[1,99]之间的整数 $r$ ,将上述的 $25\mathrm{%}$ 改为 $r\mathrm{%}$ ,即可求得 ${P}_{r}$ 。
在统计学中,${P}_{25}$ 又称为第一四分位数,${P}_{50}$ 又称为第二四分位数,${P}_{75}$ 又称为第三四分位数。
例1
计算下列数据
$1,5,9,12,13,18,21,23,28,36$
的百分位数:${P}_{25},{P}_{50},{P}_{75}$ 。
解 数据量 $n=10$ 。
因为 $c=n×25\mathrm{%}=2.5$ 不是整数, 3 是比 2.5 大的最小整数,
所以 ${P}_{25}={x}_{3}=9$ ;
因为 $c=n×50\mathrm{%}=5$ 是整数,
所以 ${P}_{50}=\frac{{x}_{5}+{x}_{6}}{2}=\frac{13+18}{2}=15.5$ ;
因为 $c=n×75\mathrm{%}=7.5$ 不是整数, 8 是比 7.5 大的最小整数,所以 ${P}_{75}={x}_{8}=23$ 。
对于从小到大排列的 $n$ 个数,${P}_{25}$ 大约处于这 $n$ 个数的 $\frac{1}{4}$ 处,${P}_{50}$ 大约处于这 $n$ 个数的中间,${P}_{75}$ 大约处于这 $n$ 个数的 $\frac{3}{4}$ 处。
百分位数是用于衡量数据位置的度量,它提供了有关数据在最小值与最大值之间位置的信息。多个百分位数结合使用,可更全面地描述数据的分布特征。
例2
某地政府为满足居民基本用电需求,并提高能源的利用效率,实现绿色发展,计划对全市居民用电标准按年采用三阶式递增电价收费:75\%的用户在最低电价一档, $20\mathrm{%}$ 的用户用电量超出一阶电价的临界值而未超过二阶电价的临界值,超过一阶临界值的用电量按二阶电价缴费, $5\mathrm{%}$ 的用户用电量超过二阶电价的临界值,超过二阶临界值的用电量按三阶电价缴费。为此,当地电力公司调查了 200 户居民 6 月份的用电量(单位: $kW\cdot h$ ),并排序如下:
阶梯电价的临界点如何确定?
分析 电力公司选取 6 月份进行调查,是因为 6 月用电量在 12 个月中处于中等偏上(可能需要空调用电),一年的用电量近似等于这个月的用电量乘以 12 。阶梯电价临界值的确定依赖于总体分布,我们要用样本数据的信息确定第 75 百分位数以及第 95 百分位数。
解 样本容量 $n=200$ 。
为了使 $75\mathrm{%}$ 的用户以最低电价一档缴费,需确定 ${P}_{75}$ 。
因为 $c=n×75\mathrm{%}=150$ 是整数,
所以 ${P}_{75}=\frac{{x}_{150}+{x}_{151}}{2}=\frac{178+178}{2}=178$ 。
这说明 6 月份约有 $75\mathrm{%}$ 的用户用电量不超过 $178kW\cdot h$ 。假设每年用电量不超过 $178×12=2136\left(kW\cdot h\right)$ 按最低档电价缴费,则大约 $75\mathrm{%}$ 的用户将按最低档缴费。
因为 $c=n×95\mathrm{%}=190$ 是整数,
所以 ${P}_{95}=\frac{{x}_{190}+{x}_{191}}{2}=\frac{289+304}{2}=296.5$ 。
这说明 6 月份约有 $95\mathrm{%}$ 的用户用电量不超过 $296.5kW\cdot h$ ,也就是说该月用电量超过 $296.5kW\cdot h$ 的用户只有 $5\mathrm{%}$ 。若每年用电量超过 $2136kW\cdot h$ ,不超过 $296.5×12=3558\left(kW\cdot h\right)$ ,则 $2136kW\cdot h$ 按最低档电价收费,超过部分按第二档电价收费。
若每年用电量超过 $3558kW\cdot h$ ,则超过部分按第三档电价收费。