统计学2——数据的搜集
统计学2——数据的搜集
统计学中的数据搜集是进行数据分析和研究的基础环节。本文将详细介绍数据的来源、调查方法、数据收集方式以及数据误差等方面的知识,帮助读者掌握数据搜集的基本原理和方法。
目录
知识结构
内容精读
一.数据来源
二.调查方法
概率抽样
1.简单随机抽样
2.分层抽样
3.整群抽样
4.系统抽样
5.多阶段抽样
非概率抽样
1.方便抽样
2.判断抽样
3.自愿样本
4.滚雪球抽样
5.配额抽样
三.数据收集的基本方式
自填式
面访式
电话式
四.数据误差
抽样误差
非抽样误差
名词解释
小结
知识结构
内容精读
一.数据来源
直接来源
通过调查、实验等方式收集到的一手资源。这种数据的针对性更强,更能满足研究问题的需要。间接来源
通过查阅资料等方式收集到的二手资源。二手数据的收集更方便,采集速度更快。但也存在数据缺失、数据过时等情况,采用这种来源的数据进行研究应保持谨慎的态度。
二.调查方法
概率抽样
也就是随机抽样,在抽样时按照一定的概率以随机原则抽取样本。排除了主观意识上的抽取,每个样本都有被抽中的机会。
常用的概率抽样方式主要有:
1.简单随机抽样
在全部总体单位中进行的概率抽样。抽样的随机性体现在随机化程序或随机数字表。该方法是最简单的一种抽样方法,但因为其抽样框包含了全部总体,导致抽样的工作量过大,并且抽样的结果分布过于分散。因此在实际工作中往往将该方法与其他方法结合进行。
python中的random库包含一系列随机操作,以下示例。
import random
def simple_random_sampling(lst, k):
return random.sample(lst, k)
# 示例使用
my_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
samples = simple_random_sampling(my_list, 3)#从列表中随机抽取三个元素
print(samples)
2.分层抽样
将抽样单位按某种特征或某种规则划分为不同的层,从不同的层中随机抽样。这中抽样方式保证了样本特征与整体结构的相似,估计的精度较高。因此在实际中该抽样方法也应用较广。
3.整群抽样
将总体中若干个单位合为一个群,在抽样时直接抽取群,并对选中群中的所有单位进行调查。该方法与简单随机抽样相比,大大减小了抽样框,让抽样变得相对容易。但在实际中,一个群内的对象往往具有相近的特质,因此估计的精度也较差。
4.系统抽样
将总体中所有单位按一定顺序排列,随机抽取一个初始单位,然后按事先制定好的规则确定其他样本。最典型的系统抽样就是从1~k中随机选择一个数作为初始单位,然后初始单位依次+k,+2k,+3k……系统抽样方式简单,精度较高,但难以对方差进行估计。
5.多阶段抽样
该方法与整群抽样类似,在选择群后,在群内在次进行抽样,如此进行的次数便是阶段抽样的抽样数。该方法保留了整群抽样简单便捷的优点,同时由于实行再抽样,调查单位能够在更广的范围内展开。在抽样规模较大时,多阶段抽样也是经常采用的抽样方法。
非概率抽样
与概率抽样相比,非概率抽样抽取样本时便不再依据随机原则,而是有目的的对总体进行抽样。
常用的非概率抽样方法有:
1.方便抽样
调查员根据方便的原则进行抽样,自行确定样本单位。这种抽样实施起来十分方便,但结果过于随意,往往最为对研究问题的初步认识。
2.判断抽样
根据调查员的经验,针对研究问题有选择的对一些单位进行调查了解后抽取,其包含重点抽样、典型抽样、代表抽样等方式。因此调查员的专业程度是影响该抽样方法准确性的关键因素。
3.自愿样本
指被调查者自愿参加成为样本的一份子。这样的抽样样本是有偏的,但可以向调查员反应某类群体对问题的一般看法。
4.滚雪球抽样
往往针对稀少群体的调查,首先选择一组调查单位,之后请他们提供另一组调查对象。这样的抽样方式下,被推荐的对象与原本群体有极大的相似度,但也更容易找到特定的人群。
5.配额抽样
类似于分层抽样,首先将所有单位按一定标志分成若干类,在每个类中进行方便抽样或判断抽样。这样抽样能保证最终样本包含不同类别,但因最终抽取并不依照随机原则,因此属于非概率抽样。
三.数据收集的基本方式
自填式
在没有调查员的协助下,被调查者自行完成问卷填写。
面访式
指现场调查中调查员与被调查者面对面的进行问答。
电话式
调查人员通过电话的形式进行调查。
三种数据搜集方式各有利弊,在研究时往往根据具体的需要进行选择。
项目 自填式 面访式 电话式
调查时间 慢 中等 快
调查费用 低 高 低
问卷难度 容易 复杂 容易
有形辅助物的使用 中等 充分 无法使用
调查过程控制 简单 复杂 容易
调查员作用发挥 无法发挥 充分 一般
回答率 最低 较高 一般
四.数据误差
抽样误差
是由抽样的随机性引起的样本结果与总体真值之间的差值,无法避免,但可以随着样本数量的增大而递减,当样本单位数等于总体单位数时(也就是普查),抽样误差为0。
非抽样误差
相对于抽样误差而言的,出抽样误差以外的其他误差。
抽样框误差
抽样框不完整造成的差异,如一个学校的毕业学生信息未及时删除等。
回答误差
被调查者回答时由于对问题理解差异造成,包括理解误差、记忆误差、有意识误差。
无回答误差
被调查者拒绝接受调查。
调查员误差
由于调查员的专业程度与细心程度造成的误差。
名词解释
概率抽样
概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。概率抽样主要分为简单随机抽样,系统抽样,分层抽样,整群抽样,多阶段抽样等。现实生活中绝大多数抽样调查都采用概率抽样的方式进行。
非概率抽样
非概率抽样时相对概率而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽取部分单位对其实施调查。
抽样误差
抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。抽样误差并不是针对某个具体样本的检测结果与总体真实结果的差异而言的,抽样误差描述的是所有样本可能的结果与总体真值之间的平均性差异。由于抽样误差是由抽样随机性引起的,所以只存在于概率抽样当中。
非抽样误差
非抽样误差是相对于抽样误差而言,是除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。
小结
数据的来源选择,抽样方式,调查方式的选择都不是一成不变的,而是要根据具体研究内容的需要进行组合分析。在抽样误差无法避免的情况下,努力减小非抽样误差也是一件十分有意义的事情。