问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

箱线图中的那些神秘数字:分位数、IQR和异常值

创作时间:
作者:
@小白创作中心

箱线图中的那些神秘数字:分位数、IQR和异常值

引用
百度
12
来源
1.
https://baike.baidu.com/item/%E5%9B%9B%E5%88%86%E4%BD%8D%E6%95%B8/5040599
2.
https://baike.baidu.com/item/%E5%9B%9B%E5%88%86%E4%BD%8D%E8%B7%9D/10671363
3.
https://blog.csdn.net/qq_31239371/article/details/109769206
4.
https://zhuanlan.zhihu.com/p/235345817
5.
https://blog.csdn.net/Tracycater/article/details/103647939
6.
https://blog.csdn.net/qq_19446965/article/details/108066957
7.
https://blog.csdn.net/abcfgh/article/details/105555929
8.
https://wiki.mbalib.com/wiki/%E7%AE%B1%E7%BA%BF%E5%9B%BE
9.
https://docs.oracle.com/cloud/help/zh_CN/pbcs_common/PFUSU/insights_metrics_IQR.htm
10.
https://zh.wikipedia.org/wiki/%E5%9B%9B%E5%88%86%E4%BD%8D%E8%B7%9D
11.
https://www.cnblogs.com/hider/p/16638918.html
12.
https://www.bilibili.com/read/cv13871369/

箱线图是数据分析中常用的统计图表,通过五个关键统计量——最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)以及最大值来展示数据分布情况。其中,分位数、IQR(四分位距)和异常值是理解箱线图的核心要素。

01

分位数:数据分布的“分水岭”

分位数是将数据集按照一定比例分割的数值点。最常见的是四分位数,它将数据分为四等份,每份包含25%的数据点。具体来说:

  • 第一四分位数(Q1):数据从小到大排列后处于25%位置的值
  • 第二四分位数(Q2):即中位数,处于50%位置的值
  • 第三四分位数(Q3):处于75%位置的值

计算分位数的方法有多种,但最常用的是基于数据排序后的线性插值法。例如,对于一个包含n个数据点的集合:

  • Q1的位置 = (n+1) * 0.25
  • Q2的位置 = (n+1) * 0.5
  • Q3的位置 = (n+1) * 0.75

如果计算出的位置是整数,则直接取该位置的数值;如果是小数,则采用插值法计算。例如,如果Q1的位置是3.75,那么Q1的值将是第3个数据点的0.25倍加上第4个数据点的0.75倍。

02

IQR:数据离散程度的“度量衡”

四分位距(IQR)是Q3与Q1之差,即IQR = Q3 - Q1。这个数值反映了中间50%数据的分布范围,是衡量数据离散程度的重要指标。与方差和标准差相比,IQR更加稳健,不易受异常值的影响。

在箱线图中,IQR的作用不仅限于描述数据的分散程度,它还是识别异常值的关键参数。

03

异常值:数据中的“另类”

异常值是指显著偏离其他数据点的观测值,它们可能源于测量误差、数据录入错误或某些特殊因素。在箱线图中,异常值的判定标准是基于IQR的:

  • 下限:Q1 - 1.5 * IQR
  • 上限:Q3 + 1.5 * IQR

落在这个范围之外的数据点被视为异常值。箱线图通常用“〇”表示温和异常值(在1.5到3倍IQR之间),用“*”表示极端异常值(超过3倍IQR)。

04

实战应用:从数据到洞察

让我们通过一个具体案例来理解这些统计量在箱线图中的应用。假设我们有一组关于某班级学生考试成绩的数据:

65, 72, 76, 80, 82, 85, 88, 90, 92, 95
  1. 计算分位数

    • Q1位置 = (10+1) * 0.25 = 2.75 → Q1 = 72 * 0.25 + 76 * 0.75 = 75
    • Q2位置 = (10+1) * 0.5 = 5.5 → Q2 = 82 * 0.5 + 85 * 0.5 = 83.5
    • Q3位置 = (10+1) * 0.75 = 8.25 → Q3 = 90 * 0.75 + 92 * 0.25 = 90.5
  2. 计算IQR

    • IQR = Q3 - Q1 = 90.5 - 75 = 15.5
  3. 识别异常值

    • 下限 = Q1 - 1.5 * IQR = 75 - 1.5 * 15.5 = 51.75
    • 上限 = Q3 + 1.5 * IQR = 90.5 + 1.5 * 15.5 = 113.75

由于所有数据都在51.75到113.75之间,因此这组数据中没有异常值。

05

总结:箱线图中的“数字密码”

分位数、IQR和异常值是箱线图的三大核心要素,它们共同构成了数据分布的完整图景。通过这些“神秘数字”,我们可以快速了解数据的中心趋势、离散程度和异常情况,从而为数据分析和决策提供有力支持。掌握这些统计量的含义和计算方法,能够帮助我们更准确地解读数据背后的故事。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号