问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

数据分析入门:一文精通描述统计方法

创作时间:
作者:
@小白创作中心

数据分析入门:一文精通描述统计方法

引用
CSDN
1.
https://blog.csdn.net/qq_27590417/article/details/139195621

描述统计是数据分析中最基础也是最常用的方法之一,它通过简单的数学方法对数据的分布特征进行描述。本文将从集中程度、离散程度和分布形态三个方面,详细介绍描述统计的具体方法及其应用场景。

一、什么是描述统计?

描述统计是通过相对较简单的数学方法,对数据的分布特征进行描述的方法。描述统计主要分为集中程度、离散程度、和分布形态分析,即通过具体的方法来描述数据的一个集中程度或者离散程度或者分布的形态是怎么样的。

二、描述统计方法具体有什么作用?

描述统计的目的是描述数据特征,找出数据的基本规律,为进一步的统计推断和数据分析提供基础。既然是数据分析的基础,那么重要性就不言而喻了。

三、描述统计对象数据类型

描述统计不同的分析方法适用的数据类型也是有所差异。因此首先可以先了解下数据都有哪些类型:

  • 分类型数据:用来定类的数据,比如性别分为男女;用来定序的顺序型数据,比如客户分为高价值、中价值、低价值客户。
  • 数值型数据:代表间距的数据,比如考核评分标准完成率在什么区间得多少分;代表比较、比例关系的连续型数据,比如身高、年收入、增长率等

四、描述统计方法具体有哪些?

接下来从集中度、离散度、分布形态三大类分别来介绍具体的方法:

(一)集中程度

1.1众数、中位数

  • 众数:代表的是数据集合中出现频次最多的数,如果一个数据集越集中,众数就具有比较好的代表性,代表该数据集整体的趋势水平。众数一般不受极值的影响,按照众数的定义,众数可能并不是唯一的,可能是多个不同的数。众数一般用于分类型数据。
  • 中位数:是指把数据按照从大到小排列,位于中间的值,如果一个数据集越集中,中位数同样具有比较好的代表性,代表该数据集整体的趋势水平。中位数一般也不受极值的影响,按照中位数的定义,如果数据集有偶数个,中位数是中间两个数值的平均值,如果是奇数,则取中间值即可。中位数一般用于描述顺序数据或者数值型数据的趋势。

1.2平均值

  • 平均值代表某一个数据整体水平,如果一个数据集越集中,均值就具有比较好的代表性,代表该数据集整体的趋势水平。均值容易受极值的影响。一个数据集的均值一般只有一个。平均值一般用于描述数值型数据的中心趋势。平均值主要分为:算数平均值、几何平均值、加权平均值和调和平均值四大类。
  • 算数平均值:数据合计/数据个数
  • 几何平均值:n:数据的个数。只有在数据为正时候才能使用。几何平均通常用于处理数据间的比例关系,例如比率、指数等进行平均,计算平均发展速度。
  • 加权平均值:对于算数平均值和几何平均值来讲,如果数据集中的不同数值的相对重要性或者频率有差异,那么给与不同数据不同的权重再来加权计算就会更加精准。
    加权算数平均值公式:

    其中:xi代表各数据值,wi代表各数据值的对应权重。
  • 调和平均值:把n个数字的倒数的和作为分母,把n作为分子的值,调和平均值的公式:
    调和平均值主要用于当存在多个不同的速率或者比率时计算。
    调整平均值:是指从上限值和下限值中去掉一定比例的的数据后剩下的数据再进行平均值的计算。当数据集中的数据的上限和下限差异较大时候使用。

1.3分位数

  • 第一四分位数(Q1):也称为较小四分位数或者下四分位数,指将数据集从小到大排列第25%的数值。
  • 第二四分位数(Q2):也称为中位数(上面也有提到),指将数据值从小到大排列第50%的数值。
  • 第三四分位数(Q3):也称为较大四分位数或者上四分位数,指将数据值从小到大排列第75%的数值。
  • 四分位距离(IQR):Q3-Q1。在实际工作中,我们经常通过四分位数配合箱线图来找出异常值。例如:小于Q1-1.5IQR或者Q1+1.5IQR 的值看错一般异常值,小于Q1-3IQR 或者Q1+3IQR的值看错极度异常值。这种检测值方法跟3西格玛法则道理是一致的。 分位数受极值影响不大,一般用于数值型数据。

(二)离散程度

2.1极值、极差

  • 极值:即最大值、最小值,代表数据集的上限和下限。一般用于数值型数据
  • 极差:即是最大值-最小值,一般极差越大代表数据集的离散程度越大。一般用于数值型数据。

2.2方差

  • 将数据集中的每个数值和均值相减后进行平方再求和,最后除以数据的个数。公式:
  • 其中xi:代表数据集中的每个数据 ,n:代表数据的个数。方差越大,代表数据集越不稳定,波动比较剧烈,分散程度比较高。方差受极值的影响比较大。一般用于数值型数据。

2.3标准差

  • 指的是方差的开方,标准差和方差的区别在于,方差的单位是数据的平方单位,而标准差的单位与数据单位相同。因此,在实际应用中,通常使用标准差比较方便,因为它与数据集的单位相同,更容易理解和比较。标准差受极值的影响比较大。一般用户数值型数据集。

2.4 分位差

  • 指的是上四分位数-下四分位数,即上面提到的四分位距离,受极值影响不大。

(三)分布形态

3.1峰态

  • 是衡量数据集分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。峰态主要分为三大类:尖峰、平顶峰和正态峰。

3.2偏度

  • 是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。峰态主要分为三大类:正偏态、负偏态和正态。

五、描述统计方法优劣势?

(一)优势

1.1简单易懂:使用简单的统计分析方法和指标来描述数据的特征,使人更容易理解数据和操作数据。

1.2提供概览:通过描述性统计,提供对整体数据的一个大致印象和判断,为后续的深入分析提供基础和前提条件的判断。

1.3异常值发现:描述性统计可以帮助我们判断数据集的数据质量情况如何,通过快速判断异常值的是否存在来进行数据的清晰。

(二)劣势

1.1深入性不足:描述性统计重点关注的是数据整体的基本特征,无法深入挖掘内部的细枝末节。

1.2缺乏推断功能:描述性统计只是可观展示数据的当前状况,无法进行推测或者预测

1.3容错性不强:描述性统计对数据质量的要求比较高,如果数据质量不好,异常值太多,计算的结果会直接影响对整体的判断。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号