问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Stata短面板数据分析入门教程

创作时间:
作者:
@小白创作中心

Stata短面板数据分析入门教程

引用
1
来源
1.
http://xinlian88.tech/h-nd-2368.html

短面板数据分析是经济学和社会科学研究中常用的数据分析方法,Stata软件提供了丰富的命令和工具,可以帮助研究人员对短面板数据进行分析。本文将详细介绍Stata短面板数据分析的基本概念、固定效应回归分析、随机效应回归分析、Hausman检验等内容,并通过具体的数据示例展示如何使用Stata进行短面板数据分析。

一、短面板数据分析概述

短面板数据的主要特征是横截面维度比较大而时间维度相对较小,短面板数据分析方法包括直接最小二乘回归分析、固定效应回归分析、随机效应回归分析、组间估计量回归分析等多种。其中最为重要的是固定效应回归分析和随机效应回归分析。

1. 固定效应回归分析

如果对于不同的截面或不同的时间序列,只是模型的截距项不同,而模型的斜率系数是相同的,则称此模型为固定效应模型。固定效应模型又分为3类:个体固定效应模型、时点固定效应模型、时点个体固定效应模型。

根据百度百科的解释,固定效应模型是指实验结果只想比较每一自变项的特定类目或类别间的差异及其与其他自变项的特定类目或类别间的交互作用效果,而不想依此推论到同一自变项未包含在内的其他类目或类别的实验设计。简单举例来说,如果我们要比较江苏、浙江与西藏、新疆的经济发展差异,只是限定在这4个省份,那么用固定效应模型就是合适的。而如果我们想要比较的是东部沿海地区与中西部地区的差异,只是随机抽取了上述4个省份作为示例,那么就应该使用随机效应模型。

在实际应用中,如果数据是总体数据,比如是我们全部省市的2001年~2021年的人均可支配收入数据,不存在随机抽样问题,则使用固定效应模型是比较恰当的,而如果数据是抽样得到的,比如从东部沿海地区、中西部地区各选N个家庭作为样本,那么就存在随机抽样,使用随机效应模型就更为合适。

除此之外,我们还可以使用Hausman检验的方法判断选择固定效应模型还是随机效应模型。

2. 随机效应回归分析

随机效应模型(Random Effects Model)是经典的线性模型的一种推广,与固定效应模型不同,随机效应模型把固定效应模型中固定的回归系数看作随机变量。如果模型中一部分系数是随机的,另一部分系数是固定的,就是混合模型(Mixed Model)。

关于随机效应的应用方面,我们举例进行说明。比如我们要评价某个赛季所有球员的上场得分,由于大部分正式球员在一个赛季中都会出场很多次,我们对球员的评分可以是针对其所有场次的比赛得分求平均值,这就是前面讲述的固定效应回归分析的思想。但是按照这样的逻辑,可能有个别球员在一个赛季中只出场了1次,比如获得了最高的10分,如果我们还是按照固定效应回归分析,将其列为赛季最佳球员就不太合适了。随机效应会利用组间差异,即在估计的时候,在所有球员的所有比赛场次的平均得分和这名球员这一场比赛得分之间取一个加权平均,从而对结果进行优化,使得结果更为客观。

3. Hausman检验

Hausman检验用于确定选择固定效应模型还是随机效应模型。检查的原假设是:内部估计量(最小二乘虚拟变量法和GLS得出的估计量均是一致的,但是内部估计量不是有效的。

基于原假设,也就是说户与s之间的绝对值差距应该不大,而且应该随样本的增加而缩小,并渐进趋近于0。所以Hausman的检验统计量就是:

该检验统计量渐进服从自由度为K的卡方分布。

或者简单来说,Hausman检验原假设就是使用随机效应模型,如果拒绝原假设,则固定效应模型更合适。

二、短面板数据分析的Stata操作

1. 固定效应回归分析

固定效应回归分析的命令是xtreg, 该命令的语法格式为:

xtreg depvar [indepvars][if][in][weight],fe [FE options]

xtreg为固定效应回归分析的命令,depvar为被解释变量,[indepvars]为解释变量,[if]为条件表达式,[in]用于设置样本范围,[weight]用于设置权重,fe表示固定效应,[FE options]为可选项,主要包括下图所示的几项。

2. 随机效应回归分析

随机效应回归分析的命令也是xtreg, 该命令的语法格式为:

xtreg depvar [indepvars][if][in][,re RE options]

xtreg为随机效应回归分析的命令,depvar为被解释变量,[indepvars]为解释变量,[if]为条件表达式,[in]用于设置样本范围,[,re RE options]为可选项,主要包括下表所示的几项。

3. Hausman检验

Hausman检验的命令是hausman, 该命令的语法格式为:

hausman name-consistent [name-efficient][,options]

hausman为Hausman检验的命令,name-consistent、[name-efficient]都是保存的估计模型名称,[,options]为可选项,主要包括下表所示的几项。

三、短面板数据分析示例

我们本节使用的数据仍来自于“数据14”数据文件。在14.1节已经完成面板数据预处理的基础上(尤其是要定义面板数据),打开“数据14”数据文件,在命令窗口中输入下列命令:

reg profit sale cost

本命令的含义是以profit为因变量,以sale、cost为自变量,进行最小二乘回归分析,结果如下图所示。

模型的P值(Prob>F)为0.0000,说明模型整体上是很显著的。模型的可决系数(R-squared)为0.6486,模型修正的可决系数(Adj R-squared)为0.6413,说明模型的解释能力也是非常好的。变量sale、cost的系数都是非常显著的。最小二乘模型的回归方程是:

profit =0.0041186*sale+0.8628148*cost-0.1217915

结论是该单位销售收入和促销费用都会正向显著影响利润创造。

reg profit sale cost,vce(cluster region)

本命令的含义是以profit为因变量,以sale、cost为自变量,并使用以region为聚类变量的聚类稳健标准差进行最小二乘回归分析。分析结果如下图所示,与普通最小二乘回归分析得到的结果类似,只是sale变量系数的显著性有所下降。

xtreg profit sale cost,fe vce(cluster region)

本命令的含义是以profit为因变量,以sale、cost为自变量,并使用以region为聚类变量的聚类稳健标准差进行固定效应回归分析,分析结果如下图所示。

共有20组,每组5个,共有100个样本参与了固定效应回归分析。模型的F值是10.92,显著性P值为0.0007,模型是非常显著的。

模型组内R方是0.3637(within=0.3637),说明单位内解释的变化比例是36.37%。

模型组间R方是0.6619(between = 0.6619),说明单位间解释的变化比例是66.19%。模型总体R方是0.6397(overall 二 0.6397),说明总的解释变化比例是63.97%。

模型的解释能力还是可以接受的。观察模型中各个变量系数的显著性P值,发现也都是比较显著的。

最后一行,rho=0.97094042,说明复合扰动项的方差主要来自个体效应而不是时间效应的变动。

xtreg profit sale cost,fe

本命令的含义是以profit为因变量,以sale、cost为自变量,进行固定效应回归分析,结果如下图所示。

本结果相对于使用以region为聚类变量的聚类稳健标准差进行固定效应回归分析的结果在变量系数显著性上有所提高。此外,最下面一行,可以看到“ (F test that all
u i=0:F(19,78)=100.78 Prob>F=0.0000)",显著拒绝了所有样本没有自己的截距项的原假设,所以我们可以初步认为每个个体用于与众不同的截距项,也就是说固定效应模型在一定程度上优于普通最小二乘回归模型。

estimates store fe

本命令的含义是存储固定效应回归分析的估计结果。

xi:xtreg profit sale cost i.region,vce(cluster region)

本命令旨在通过构建最小二乘虚拟变量模型来分析固定效应模型是否优于最小二乘回归分析,结果如下图所示。

大多数个体虚拟变量的显著性P值都是小于0.05的,所以我们可以非常有把握地认为可以拒绝“所有个体的虚拟变量皆为0”的原假设,也就是说固定效应模型优于普通最小二乘回归模型。

tab year,gen(year)

本命令旨在创建年度变量的多个虚拟变量。

xtreg profit sale cost year2-year5,fe vce(cluster region)

本命令旨在通过构建双向固定效应模型来检验模型中是否应该包含时间效应,结果如下图所示。

全部year虚拟变量的显著性P值都是远大于0.05的,所以我们可以初步认为模型中不应包含时间效应。值得说明的是,在构建双向固定效应模型时并没有把year1列入进去,这是因为year1被视为基期,也就是模型中的常数项。

test year2 year3 year4 year5

本命令的含义是在上一步回归的基础上,通过测试各虚拟变量的系数联合显著性来检验是否应该在模型中纳入时间效应,结果如下图所示。

可以看出,各变量系数的联合显著性是非常差的,接受了没有时间效应的初始假设,所以我们进一步验证了模型中不必包含时间效应项的结论。

xtreg profit sale cost,re vce(cluster region)

本命令的含义是以profit为因变量,以sale、cost为自变量,并使用以region为聚类变量的聚类稳健标准差进行随机效应回归分析,结果如下图所示。

随机效应回归分析的结果与固定效应回归分析的结果大同小异,只是部分变量的显著性水平得到了进一步的提高。

xttest0

本命令的含义是在上一步回归的基础上,进行假设检验来判断随机效应模型是否优于最小二乘回归模型,结果如下图所示。

假设检验非常显著地拒绝了不存在个体随机效应的原假设,也就是说,随机效应模型是在一定程度上优于普通最小二乘回归分析模型。

xtreg profit sale cost,mle

本命令的含义是以profit为因变量,以sale、cost为自变量,并使用最大似然估计方法进行随机效应回归分析,结果如下图所示。

使用最大似然估计方法的随机效应回归分析的结果与使用以region为聚类变量的聚类稳健标准差的随机效应回归分析的结果大同小异,只是部分变量的显著性水平得到了进一步的提高。

xtreg profit sale cost,be

本命令的含义是以profit为因变量,以sale、cost为自变量,并使用组间估计量进行组间估计量回归分析,分析结果如下图所示。

使用组间估计量进行回归分析的结果较固定效应模型、随机效应模型在模型的解释能力以及变量系数的显著性上都有所降低。

在前面的分析部分,我们使用各种分析方法对本节涉及的案例进行了详细具体的分析。读者看到众多的分析方法时可能会有眼花缭乱的感觉,那么我们最终应该选择哪种分析方法来构建模型呢?答案当然是具体问题具体分析,然而我们也有统计方法和统计经验作为决策参考。例如,在本例中,已经证明了固定效应模型和随机效应模型都要好于普通最小二乘回归模型。而对于组间估计量模型来说,它通常用于数据质量不好的时候,而且会损失较多的信息,所以很多时候我们仅仅将其作为一种对照的估计方法。那么剩下的问题就是选择固定效应模型还是随机效应模型的问题。在前面分析的基础上,命令如下:

  • xtreg profit sale cost,re :本命令的含义是以profit为因变量,以sale、cost为自变量,进行随机效应回归分析。
  • estimates store re :本命令的含义是存储随机效应回归分析的估计结果。
  • hausman fe re,constant sigmamore :本命令的含义是进行豪斯曼检验,并据此判断应该选择固定效应模型还是随机效应模型。

在命令窗口中输入命令并按回车键进行确认,豪斯曼检验结果如下图所示。

豪斯曼检验的原假设是使用随机效应模型。上图中显示的显著性P值(Prob>chi2 =0.0061)远远低于5%,所以我们拒绝初始假设,认为使用固定效应模型更为合理。

综上所述,我们应该构建固定效应模型来描述变量之间的回归关系。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号