中国GDP及其影响因素的多元线性回归分析
中国GDP及其影响因素的多元线性回归分析
GDP是宏观经济中最受关注的经济统计数字。本文通过多元回归模型分析了1990-2020年中国GDP及其影响因素,选取人口、固定资产投资、消费、净出口、税收、广义M2货币、物价指数等变量作为解释变量,通过数据预处理、描述性统计、相关性分析、回归分析、模型检验等步骤,最终得到对GDP影响显著的4个变量:人口、消费、净出口额、税收。
一、研究背景和意义
GDP是宏观经济中最受关注的经济统计数字,目前我国国内生产总值年均增长率均明显高于同期美、日等发达经济体和巴西、俄罗斯、南非、印度等其他金砖国家,成为世界经济增长的主力军。GDP的增长对一个国家有着十分重要的意义,它衡量一国在过去一年里所创造的劳动成果。研究GDP的影响因素不仅可以很好地了解GDP的经济内涵,而且还有利于根据这些因素对GDP影响大小来实施有效的宏观经济调控。
因此,本文选取1990-2020年的GDP、税收等数据,数据来源于东方财务网,其中包括人口(population)、固定资产投资(fixed_investments)、消费(consumption_level)、净出口(total_export_import_volume)、税收(tax)、广义M2货币、物价指数(CPI)等变量作为解释变量X,我国GDP作为被解释变量y,使用多元回归模型对我国GDP增长的因素进行分析。
二、文献综述
戚顺欣(2017年)选取2006年到2013年八年内的沈阳市GDP数据,利用多元回归模型,从多方面入手,选择多个影响因子分析沈阳市GDP增长的主要影响因素[1]。郭崇文(2016年)选取了三个因素,使用eviews软件对GDP与这些因素建立计量模型,并进行相关的统计检验和修正,对我国的经济发展提供借鉴意义[2]。卢金凤(2015年)通过搜集2010年、2013年重庆市能源消费量及地区生产总值,对单位生产总值能耗完成"十二五"规划进行检查和分析,总结完成目标的经验,以便为我国完成降耗目标起到借鉴作用[3]。
三、算法原理
数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约。进行数据清理是因为现实世界的数据一般是不完整的、有噪声的、是不一致的。数据清理流程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。数据集成是指合并来自多个数据存储的数据。数据规约指可以用来得到数据集的规约表示,它小得多,但仍接近于保持原始数据的完整性。数据变换是指将数据格式转变,如将数据变为数值型、分类型数据等等。数据预处理,一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。当然了,这四个大步骤在做数据预处理时未必都要执行,在许多情况下完成前两个步骤就可以对数据开始进行分析了。
四、实证分析
数据描述性统计
表 1 数据整体性描述
变量 | 最小值 | 第1四分位数 | 中位数 | 均值 | 第3四分位数 | 最大值 |
|---|---|---|---|---|---|---|
GDP | 18923 | 81310 | 185999 | 333476 | 562735 | 1008783 |
population | 114333 | 124194 | 130756 | 129859 | 136324 | 141212 |
Fixed_investments | 4517 | 26674 | 80994 | 171118 | 305501 | 527270 |
Consumption_level | 825 | 3033 | 5671 | 9489 | 14845 | 29210 |
Import_export_volume | 5560 | 26908 | 116922 | 133990 | 243773 | 322215 |
tax | 2822 | 8748 | 28779 | 55933 | 105572 | 158000 |
M2 | 15293 | 97747 | 298756 | 619342 | 1040337 | 2186796 |
CPI | 98.6 | 101.5 | 102.6 | 103.4 | 104.3 | 117.1 |
变量相关性分析
变量间的相关系数矩阵如下:
变量 | GDP | 人口 | 固定资产 | 消费 | 净出口 | 税收 | M2 | 物价指数 |
|---|---|---|---|---|---|---|---|---|
GDP | 1 | 0.897 | 0.997 | 0.998 | 0.962 | 0.995 | 0.997 | -0.237 |
人口 | 0.897 | 1 | 0.886 | 0.891 | 0.941 | 0.902 | 0.873 | -0.382 |
固定资产 | 0.997 | 0.886 | 1 | 0.993 | 0.955 | 0.996 | 0.995 | -0.234 |
消费 | 0.998 | 0.891 | 0.993 | 1 | 0.947 | 0.987 | 0.999 | -0.243 |
净出口 | 0.962 | 0.941 | 0.955 | 0.947 | 1 | 0.972 | 0.941 | -0.267 |
税收 | 0.995 | 0.902 | 0.996 | 0.987 | 0.972 | 1 | 0.987 | -0.239 |
M2 | 0.997 | 0.873 | 0.995 | 0.999 | 0.941 | 0.987 | 1 | -0.235 |
物价指数 | -0.237 | -0.382 | -0.234 | -0.243 | -0.237 | -0.239 | -0.235 | 1 |
回归分析
通过逐步回归分析,最终保留了人口、消费、净出口额、税收这4个变量。回归系数的显著性水平有所提高,且p值均较小,说明回归系数显著。
模型检验
- 异方差检验:BP = 2.8563, df = 4, p_value = 0.5822。由于p值>0.1,可认为该模型不存在异方差性。
- 自相关检验:DW = 0.98122, p_value = 0.00002874。DW检验的原假设为误差不相关,因为p_value<0.05,拒绝原假设,认为误差存在自相关。
五、结论与建议
本文对1990—2020年间GDP和各个行业增加值的数据进行描述性分析和多元线性分析,根据数据可以给出以下建议:在回归模型下,基于逐步回归合理删除变量之后,本文得到对GDP均有影响的4个变量的t检验都非常的显著,它们是对GDP均有影响的4个变量。分别是人口、消费、净出口额、税收。故若希望GDP能稳定持续增长,则需要注重在这几个变量上。
参考文献
- 戚顺欣,傅格格,张馨予.基于多元回归模型沈阳市GDP影响因素分析[J].商场现代化,2017(09):170-171.DOI:10.14013/j.cnki.scxdh.2017.09.096.
- 郭崇文.我国GDP的影响因素分析[J].商,2016(16):204.
- 卢金凤,彭莉莎.重庆市单位GDP能耗影响因素分析[J].合作经济与科技,2015(23):13-14.DOI:10.13665/j.cnki.hzjjykj.2015.23.005.