数据分析入门：一文精通描述统计方法

创作时间:

作者:

@小白创作中心

引用

CSDN

https://blog.csdn.net/qq_27590417/article/details/139195621

描述统计是数据分析中最基础也是最常用的方法之一，它通过简单的数学方法对数据的分布特征进行描述。本文将从集中程度、离散程度和分布形态三个方面，详细介绍描述统计的具体方法及其应用场景。

描述统计是通过相对较简单的数学方法，对数据的分布特征进行描述的方法。描述统计主要分为集中程度、离散程度、和分布形态分析，即通过具体的方法来描述数据的一个集中程度或者离散程度或者分布的形态是怎么样的。

描述统计的目的是描述数据特征，找出数据的基本规律，为进一步的统计推断和数据分析提供基础。既然是数据分析的基础，那么重要性就不言而喻了。

描述统计不同的分析方法适用的数据类型也是有所差异。因此首先可以先了解下数据都有哪些类型：

接下来从集中度、离散度、分布形态三大类分别来介绍具体的方法：

1.1众数、中位数

众数：代表的是数据集合中出现频次最多的数，如果一个数据集越集中，众数就具有比较好的代表性，代表该数据集整体的趋势水平。众数一般不受极值的影响，按照众数的定义，众数可能并不是唯一的，可能是多个不同的数。众数一般用于分类型数据。
中位数：是指把数据按照从大到小排列，位于中间的值，如果一个数据集越集中，中位数同样具有比较好的代表性，代表该数据集整体的趋势水平。中位数一般也不受极值的影响，按照中位数的定义，如果数据集有偶数个，中位数是中间两个数值的平均值，如果是奇数，则取中间值即可。中位数一般用于描述顺序数据或者数值型数据的趋势。

1.2平均值

平均值代表某一个数据整体水平，如果一个数据集越集中，均值就具有比较好的代表性，代表该数据集整体的趋势水平。均值容易受极值的影响。一个数据集的均值一般只有一个。平均值一般用于描述数值型数据的中心趋势。平均值主要分为：算数平均值、几何平均值、加权平均值和调和平均值四大类。
算数平均值：数据合计/数据个数
几何平均值：n：数据的个数。只有在数据为正时候才能使用。几何平均通常用于处理数据间的比例关系，例如比率、指数等进行平均，计算平均发展速度。
加权平均值：对于算数平均值和几何平均值来讲，如果数据集中的不同数值的相对重要性或者频率有差异，那么给与不同数据不同的权重再来加权计算就会更加精准。
加权算数平均值公式：

其中：xi代表各数据值，wi代表各数据值的对应权重。
调和平均值：把n个数字的倒数的和作为分母，把n作为分子的值，调和平均值的公式：
调和平均值主要用于当存在多个不同的速率或者比率时计算。
调整平均值：是指从上限值和下限值中去掉一定比例的的数据后剩下的数据再进行平均值的计算。当数据集中的数据的上限和下限差异较大时候使用。

1.3分位数

第一四分位数（Q1）：也称为较小四分位数或者下四分位数，指将数据集从小到大排列第25%的数值。
第二四分位数(Q2)：也称为中位数（上面也有提到），指将数据值从小到大排列第50%的数值。
第三四分位数(Q3)：也称为较大四分位数或者上四分位数，指将数据值从小到大排列第75%的数值。
四分位距离（IQR）：Q3-Q1。在实际工作中，我们经常通过四分位数配合箱线图来找出异常值。例如：小于Q1-1.5IQR或者Q1+1.5IQR 的值看错一般异常值，小于Q1-3IQR 或者Q1+3IQR的值看错极度异常值。这种检测值方法跟3西格玛法则道理是一致的。分位数受极值影响不大，一般用于数值型数据。