统计学入门——数据科学领域最需要了解的统计学基础概念
统计学入门——数据科学领域最需要了解的统计学基础概念
统计学是数据科学的入门门槛,是打开数据科学的钥匙。但你真的需要在学习数据科学之前就掌握所有的统计学知识吗?答案可能出乎你的意料。本文将为你介绍数据科学入门所必需的统计学基础知识,帮助你更好地理解数据科学的核心概念。
什么是统计学?
根据经济学家和抽样方法先驱阿瑟-里昂-鲍利(Arthur Lyon Bowley)的说法,统计学是:
“对调查事件的量化描述,并将之与其他事件进行联系。”
这句话的意思是,统计学帮助我们理解数据,并向他人传达数据得出的结果。统计方法(即在处理统计数据时所采用的技术方法)分为两种类型:
描述统计:是统计学的一大分支,它协助我们通过数值或图形可视化来总结数据。描述统计帮助我们识别和理解数据中的一些关键属性。它包含如中心极限、离散、箱形图、直方图等概念。
推断统计:是统计学的另一大分支,它帮助我们根据收集到的数据做出决策或预测。推断统计是在描述性统计的基础上,更进一步的推理判断。它包括诸如假设、概率等概念。
数据科学入门必备统计学概念
基本概念
对象:是我们想要观测的具体事物。它可以是一个人,一个动物,或其他东西。它也被称为观测点。
总体:指的是我们感兴趣的(也就是我们想观察的)整个对象集,比如一个国家的全体女性人数。
样本:现实情况下,观察一个总体几乎不可能(因为它费时费力)。比如:你希望观测世界上所有女性数量,但进行这种观测成本很大。所以,在统计学中,我们有一种叫做样本的东西,它是总体的一部分或子集。我们可以利用样本对全部人口做出判断(推断统计)。
参数:是描述总体特征的度量。比如,你正在观测一个国家的人口,你发现90%的居民为男性,10%为女性。数值90%和10%是整个人口的性别度量(描述统计)。它就是总体特征的一个参数。
统计量:是描述样本特征的度量。如前所述,我们没法观测总体,只能观测样本,统计量就是对样本特征的数值度量。
数据类型
定量数据:也被称为数值数据。它是一种可以计数或计量数值的数据。定量数据可以进一步分为两种类型:
定量离散数据:它可以计数但不能精确计量, 比如计数鞋店中的鞋子个数。
定量连续数据:这是一种基于精确计量的数值数据。例如,测量一个玻璃缸的重量。
定性数据:它是代表类别或数据组的各种数据。它也被称为类别数据。它通常是特征、名字或其他东西的名称分类。常见的例子包括人名,狗的品种等等。然而,有一些数据看起来像数值数据,但也被归为类别数据。例如,假设你想根据年龄对某一群人进行分组,发现最低和最高年龄分别是10岁和60岁。然后你把年龄分成5个类别(10-20岁,21-30岁,31-40岁,41-50岁,51-60岁),并给每个类别分配数值,其中1代表10-20岁,2代表21-30岁,以此类推。在这种情况下,数值将被作为定性数据而不是定量数据来处理。
数据计量尺度
名义数据:名义数据是无序的分类数据,也就是说,它们不能被排序。每一组数据都代表一个分类,比如颜色。蓝色没有任何理由排在黄色之前。在处理名义数据时,每组数据都必须作为一个独立的分类来处理。
有序数据:有序数据是有顺序的分类数据。当数据被排序后,就有了先后顺序。像优秀、良好、满意和不满意这样的调查回答就是一个例子。将优秀排在良好之上符合现实需要。
间隔数据:间隔数据是指有排序的数值数据,并且可以进行测量(比如,数据之间可以相减)。温度计的读数就是一个间隔数据例子。例如,你可以测量摄氏4度和10度之间的差值,10度比4度高6度。间隔刻度数据有两个特点:
它没有一个起点(也就是说,它不从零开始,可以有一个低于零的温度值)
无法计算出它们的比例。比如,80摄氏度比20摄氏度高4倍,这不符合逻辑,因为它们没有一个起点。
比率数据:比率数据具有间隔数据可以被排序和计量的特点,但比率数据有一个共同的起点,所以能计算它们之间的比率。比如考试成绩分别为20、68、90或80分。我们可以给它排序,计算差值,并找到数值之间的比率,比如80分比20分高4倍。
描述统计方法
中心趋势度量
平均数:当我们有一组像4,5,6,7,10这样的数值数据时,这组数据中的每个值都被称为一个数据点。我们可能想找到这组数据的平均值。平均值本质上就是一组数据的平均数,计算方法是所有数据点的总和除以数据点的总个数。上面的数据集的总和是32,数据点的总个数是5,所以平均数,也就是平均值,是6.4。平均数只存在于定量数据上,定性数据没有平均数。
中位数:给定一组数值,我们可能想找到位于中间位置的数值,中位数就是最中间的数据点,中位数也只存在于定量数据。
众数:众数是最高频出现的数据点(也就是出现次数最多的数值)。定量数据和定性数据都有众数。
离散程度度量
离群值:离群值是指与其他数据点显著不同的异常数据点。离群值会导致我们得出错误的结论。下面就是一个典型的例子。假设你有一台机器能计算每天进入超市的顾客数。它某一周值为20、23、26、27、302。我们可以判断302就是一个离群值,因为它与其他数值有很大的差别。离群值可能是由突然的变化、机器故障或其他情况造成的。它们的出现会导致错误结论。例如,如果想知道平均超市顾客访问量,数值302就可能具有误导性,让我们认为平均访问量是75。
标准差:标准差是一种描述性数值,表明数据点与平均值的偏离程度。它被用来确定数据的分布情况。标准差越接近于零,数据点就越趋近于平均值。标准差是一种非常重要的描述性统计。它能告诉我们数据集的离散程度。下图是一张数据正态分布图,X轴以标准差为刻度。
从上图可以看出,34.1% + 34.1% = 68.2% 的所有观测值都在一个标准差之内,或1σ(读作一个西格玛)。加上13.6%+13.6%=27.2%的观测值在两个标准差之内,或2σ,以此类推。不知道你是否听说过六西格玛这个工程学概念。它表示在质量保证过程中要考虑到六个标准差的可能性。这意味着除了最最极端的异常值之外,你要考虑到所有的情况。准确地说,是所有可能性的99.99966%。
数据可视化方法
柱状图
柱状图用于类别数据的可视化。用它可以来展示每组数据的频数(即一个类别中数据点出现的次数)。
直方图
直方图与柱状图类似,用以展示数据组的频数。但与柱状图不同的是,它展示了定量连续数据组的频数,这些连续数据组也被称为区间或组距。直方图是非常有效的可视化图形,可以帮助展示定量数据的分布。
箱型图
箱型图可以直观地查看是否存在离散点,它还展示了诸如最小区间值、第一四分位数,中位数,第三四分位数和最大区间值等数字。箱型图如图所示:
最小区间值:最小区间值并不是最小值。它等于 ( Q1 -1.5*IQR) 。
Q1是第一四分位数。
IQR是第三四分位数和第一四分位数的差值。
最小区间界定了正常数据点的范围,它可以帮助我们发现那些小于正常范围的离散点。举个例子,假设我们的数据点是像这样分布[345, 402, 295, 386, 10]。我们可以判断数据点10是一个离群点,因为它远低于其他观察值。第一四分位数告诉我们25%的数据点低于这个数值,75%的数据点高于这个数值。它也被称为第25百分位数。
第二四分位数告诉我们50%的数据点低于该数值,其余50%高于该数值。它也被称为第50百分位数。
第三四分位数告诉我们75%的数据点低于该数值,其余25%高于该数值。它也被称为第75百分位数。
最大区间值,和最小区间值一样,也不是数据集中的最高值。它的计算公式是(Q3+1.5*IQR)。
Q3 是第三四分位数。
IQR是第三四分位数和第一四分位数的差值。
最大区间值可以帮助我们发现那些远高于其他观察值的离散点。比如,假设我们的数据点是像这样分布[645, 40, 25, 38, 42]。我们可以确定645是一个离散点,因为它是远远高于其他观察值。
变量相关性分析
变量相关性
变量是代表任何一组数值的统称,时常表示为表格中的一列。如果一个变量中的数值变化引起另一个变量中的数值变化,我们就称这两个变量具有相关性。为了度量两个定量变量之间的相关性,我们常常用卡尔-皮尔逊公式来计算,其结果在-1和+1之间。如果相关值接近1,表明这两个变量正相关(也就是说,当一个变量数值增加时,另一个变量数值也会增加)。如果数值接近-1,表明这两个变量负相关(即随着一个变量数值增加,另一个变量数值减少)。最后,如果相关值为0,则两个变量之间没有相关性。
散点图
我们可以通过散点图来表示定量变量之间的相关性,如下图所示。
结论:学无止境
在本教程中,我们已经探讨了一些基本的统计学概念,这些概念将帮助你更有效地处理数据。但学无止境---还有一些基本的统计学概念我们没有涉及,你必须自己去学习。这只是一个开始,你可以通过查阅在线资源或教科书进行更深入地学习。
非常感谢你阅读本文。请将本文分享给那些也想涉足数据科学的初学者。