统计学不再难:5分钟掌握统计学基本概念
统计学不再难:5分钟掌握统计学基本概念
统计学是数据分析的基础,但很多人对统计学中的基本概念感到困惑。本文将用简单易懂的语言,帮助你快速掌握统计学中的核心概念——总体与样本、参数与统计量。
在统计学的世界里,每一个数字背后都隐藏着一个故事。让我们从最基本的概念开始,探索如何通过“总体”和“样本”来捕捉数据的全貌,以及如何通过“参数”和“统计量”来讲述这些数据背后的故事。
总体与样本
总体(population)是包含所研究的全部个体(或数据)的集合,它通常由所研究的一些个体组成,如由多个企业构成的集合,多个居民户构成的集合,多个人构成的集合等。
组成总体的每个元素称为个体,在由多个企业构成的总体中,每个企业就是一个个体;由多个居民户构成的总体中,每个居民户就是一个个体;由多个人构成的总体中,每个人就是一个个体。
总体范围的确定有时比较容易。比如,要检验一批灯泡的使用寿命,这批灯泡构成的集合就是总体,每个灯泡就是一个个体,总体的范围很清楚。
但在有些场合总体范围的确定则比较困难,比如,对于新推出的一种饮料,要想知道消费者是否喜欢,首先必须弄清哪些人是消费的对象,也就是要确定构成该饮料的消费者这一总体,但事实上,我们很难确定哪些消费者购买该饮料,总体范围的确定十分复杂。
当总体的范围难以确定时,可根据研究的目的来定义总体。
样本(sample)是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(sample size)。抽样的目的是根据样本提供的信息推断总体的特征。
比如,从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本,然后根据这 100个灯泡的平均使用寿命去推断这批灯泡的平均使用寿命。
参数与统计量
参数(parameter)是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。对于一个总体,研究者所关心的参数通常有总体平均数、总体标准差总体比例等。
在统计中,总体参数通常用希腊字母表示。比如,总体平均数用(mu)表示,总体标准差用σ(sigma)表示,总体比例用π(pi)表示等等。
由于总体数据通常是不知道的,所以参数通常也是一个未知的常数。比如,我们不知道某一地区所有人口的平均年龄,不知道一个城市所有家庭的收入的差异,不知道一批产品的合格率等等。正因为如此,才需要进行抽样,根据样本计算出某种统计量,然后估计总体参数。
统计量(statistic)是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。对于一个总体,研究者所关心的统计量主要有样本平均数、样本标准差、样本比例等。样本统计量通常用英文字母来表示。比如,样本平均数用x̄(读作x-bar)表示,样本标准差用s表示,样本比例用p表示等等。
由于样本是已经抽出来的,所以统计量总是知道的。抽样的目的就是要根据样本统计量去估计总体参数。比如,用样本平均数(x̄)去估计总体平均数(μ),用样本标准差(s)去估计总体标准差(σ),用样本比例(p)去估计总体比例(π)等等;
下图展示了总体和样本、参数和统计量的关系。
除了样本平均数、样本比例、样本标准差这类统计量外,还有一些是为统计分析的需要而构造出来的统计量,如t统计量、F统计量、卡方统计量等,这些统计量主要用于假设检验和模型构建。