问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

箱线图详解:从概念到案例分析

创作时间:
作者:
@小白创作中心

箱线图详解:从概念到案例分析

引用
CSDN
1.
https://blog.csdn.net/qq_33366130/article/details/144984650


含义

箱线图(Boxplot)是一种用来展示数据分布情况的统计图表,主要用于描述数据的集中趋势和离散程度,同时可以直观地发现数据中的异常值。

  • 中位数(Median):箱子中间的一条线,表示数据的中间值。
  • 上下四分位数(Q1 和 Q3)
  • 下四分位数(Q1):数据中25%的位置。
  • 上四分位数(Q3):数据中75%的位置。
  • 四分位距(IQR):上四分位数与下四分位数的差(IQR = Q3 - Q1),表示数据的集中分布范围。
  • 上下限(Whiskers)
  • 上限:Q3 + 1.5 × IQR。
  • 下限:Q1 - 1.5 × IQR。
  • 超过上下限的数据点被认为是异常值。
  • 异常值(Outliers):超出上下限范围的点,通常用单独的圆点表示。

作用和意义

  • 数据分布的可视化:箱线图可以直观地展示数据的分布情况,包括中位数、数据的集中程度和离散程度。
  • 发现异常值:通过箱线图可以快速识别数据中的异常值。
  • 比较多组数据:箱线图适合用于比较不同组数据的分布差异。
  • 数据对称性:通过箱子的形状和中位数的位置,可以判断数据是否对称。

什么时候使用箱线图?

  • 数据分布分析:需要了解数据的集中趋势和离散程度时。
  • 异常值检测:需要识别数据中的异常值时。
  • 多组数据比较:需要比较不同组数据的分布差异时(如不同班级的成绩分布)。

几个问题

  1. 为什么会有异常值,影响箱线图的绘制吗?

箱线图的大小是由数据升序排列后,中间的50%个数据决定的。因此前25%个数据和后25%个数据都没法影响箱线图,它们可以变得任意远,但不会扰动四分位值,所以异常值不会影响箱线图的形状。

案例分析:班级10名学生的成绩

成绩:45, 50, 55, 60, 65, 70, 75, 80, 85, 100

1. 计算关键值

排序后的数据:45, 50, 55, 60, 65, 70, 75, 80, 85, 100

  • 中位数(Median):65 和 70 的平均值 = (65 + 70) / 2 = 67.5
  • 下四分位数(Q1):50 和 55 的平均值 = (50 + 55) / 2 = 52.5
  • 上四分位数(Q3):80 和 85 的平均值 = (80 + 85) / 2 = 82.5
  • 四分位距(IQR):Q3 - Q1 = 82.5 - 52.5 = 30
  • 上下限:
  • 下限:Q1 - 1.5 × IQR = 52.5 - 1.5 × 30 = 7.5
  • 上限:Q3 + 1.5 × IQR = 82.5 + 1.5 × 30 = 127.5

2. 异常值

数据中没有低于7.5或高于127.5的值,因此没有异常值。

3. 绘制箱线图

  • 箱子范围:从 Q1(52.5)到 Q3(82.5)。
  • 中位数:67.5,用一条线表示。
  • 上下须:从最小值(45)到最大值(100)

分析

  • 数据分布:数据的中位数是67.5,说明一半学生的成绩高于67.5,一半低于67.5。数据的四分位距为30,说明成绩的中间50%分布在52.5到82.5之间。
  • 离散程度:数据分布较为均匀,没有异常值。
  • 应用场景:如果需要比较多个班级的成绩分布,可以绘制多个箱线图进行对比。

通过箱线图,可以快速了解班级成绩的整体分布情况,发现是否存在异常值,以及成绩的集中程度和离散程度。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号