中国GDP及其影响因素的多元线性回归分析
中国GDP及其影响因素的多元线性回归分析
GDP是衡量一个国家经济实力的重要指标。本文通过多元线性回归分析,探讨了人口、固定资产投资、消费、净出口、税收、广义M2货币和物价指数等因素对中国GDP的影响。研究发现,人口、消费、净出口和税收是影响中国GDP的主要因素。
研究背景和意义
GDP是宏观经济中最受关注的经济统计数字。目前,我国国内生产总值年均增长率明显高于同期美、日等发达经济体和巴西、俄罗斯、南非、印度等其他金砖国家,成为世界经济增长的主力军。GDP的增长对一个国家具有十分重要的意义,它衡量一国在过去一年里所创造的劳动成果。研究GDP的影响因素不仅可以很好地了解GDP的经济内涵,而且还有利于根据这些因素对GDP影响大小来实施有效的宏观经济调控。
因此,本文选取1990-2020年的GDP、税收等数据,数据来源于东方财务网,其中包括人口(population)、固定资产投资(fixed_investments)、消费(consumption_level)、净出口(total_export_import_volume)、税收(tax)、广义M2货币、物价指数(CPI)等变量作为解释变量X,我国GDP作为被解释变量y,使用多元回归模型对我国GDP增长的因素进行分析。
实证分析
数据预处理
数据预处理主要包括数据清洗、数据集成、数据变换和数据归约四个步骤。数据清洗是为了处理现实世界中不完整、有噪声、不一致的数据;数据集成是合并来自多个数据存储的数据;数据规约是得到数据集的规约表示;数据变换是将数据格式转变为数值型或分类型数据等。这些步骤的目的是提高数据质量并适应数据分析软件或方法的要求。
描述性统计分析
以下是各变量的描述性统计结果:
变量 | 最小值 | 第1四分位数 | 中位数 | 均值 | 第3四分位数 | 最大值 |
---|---|---|---|---|---|---|
GDP | 18923 | 81310 | 185999 | 333476 | 562735 | 1008783 |
人口 | 114333 | 124194 | 130756 | 129859 | 136324 | 141212 |
固定资产投资 | 4517 | 26674 | 80994 | 171118 | 305501 | 527270 |
消费 | 825 | 3033 | 5671 | 9489 | 14845 | 29210 |
净出口 | 5560 | 26908 | 116922 | 133990 | 243773 | 322215 |
税收 | 2822 | 8748 | 28779 | 55933 | 105572 | 158000 |
M2 | 15293 | 97747 | 298756 | 619342 | 1040337 | 2186796 |
物价指数 | 98.6 | 101.5 | 102.6 | 103.4 | 104.3 | 117.1 |
变量分布与相关性分析
首先画出1990-2020年GDP的走势情况:
从箱线图可以看出,7个特征变量的分布较好且异常值很少。
接下来展示变量间的相关性:
变量间的相关系数矩阵如下:
变量 | GDP | 人口 | 固定资产 | 消费 | 净出口 | 税收 | M2 | 物价指数 |
---|---|---|---|---|---|---|---|---|
GDP | 1.000 | 0.897 | 0.997 | 0.998 | 0.962 | 0.995 | 0.997 | -0.237 |
人口 | 0.897 | 1.000 | 0.886 | 0.891 | 0.941 | 0.902 | 0.873 | -0.382 |
固定资产 | 0.997 | 0.886 | 1.000 | 0.993 | 0.955 | 0.996 | 0.995 | -0.234 |
消费 | 0.998 | 0.891 | 0.993 | 1.000 | 0.947 | 0.987 | 0.999 | -0.243 |
净出口 | 0.962 | 0.941 | 0.955 | 0.947 | 1.000 | 0.972 | 0.941 | -0.267 |
税收 | 0.995 | 0.902 | 0.996 | 0.987 | 0.972 | 1.000 | 0.987 | -0.239 |
M2 | 0.997 | 0.873 | 0.995 | 0.999 | 0.941 | 0.987 | 1.000 | -0.235 |
物价指数 | -0.237 | -0.382 | -0.234 | -0.243 | -0.237 | -0.239 | -0.235 | 1.000 |
回归分析
通过逐步回归分析,最终模型中保留了人口、消费、净出口和税收四个变量。回归系数的显著性水平有所提高,且p值均较小,说明回归系数显著。
模型检验
- 异方差检验:BP = 2.8563,df = 4,p_value = 0.5822。由于p值>0.1,可认为该模型不存在异方差性。
- 自相关检验:DW = 0.98122,p_value = 0.00002874。DW检验的原假设为误差不相关,因为p_value<0.05,拒绝原假设,认为误差是相关的。
结论与建议
基于逐步回归分析,本文发现对GDP有显著影响的四个变量是人口、消费、净出口额和税收。为了实现GDP的稳定持续增长,需要注重这些变量的发展。