多重线性回归分析的SPSS操作教程及结果解读
多重线性回归分析的SPSS操作教程及结果解读
多重线性回归分析是研究一个连续性因变量和多个自变量之间线性关系的统计学分析方法,是简单线性回归的延伸和拓展。本文将从多重线性回归分析的介绍、使用条件及案例的SPSS操作演示等方面进行详细讲解。
多重线性回归分析介绍
多重线性回归(multiple linear regression)是研究一个连续性因变量和多个自变量之间线性关系的统计学分析方法,是简单线性回归的延伸和拓展,其基本原理与简单线性回归一致。
模型构建
多重线性回归模型通常表示为:
- y是因变量。
- x 1,x 2 ,…,x p是自变量。
- β0 ,β1 ,β 2 ,…,βp是偏回归系数,表示在其他自变量固定不变的情况下,自变量每改变一个单位时,其单独引起因变量y的平均改变量。
- ϵ 是随机误差,也称为残差,是y的变化中不能用自变量解释的部分,服从正态分布。
参数估计
多重线性回归分析中回归系数的估计通过最小二乘法(method of least square)进行,目的是寻找适宜的系数使得因变量残差平方和达到最小。
自变量的选择
在多重线性回归分析中,自变量的选择是必要的。基本思路是尽可能将对因变量影响大的自变量选入回归方程中,并尽可能将对因变量影响小的自变量排除在外。
应用
多重线性回归分析可以应用于多种场景:
- 定量地建立一个反应变量与多个解释变量之间的线性关系。
- 筛选危险因素。
- 通过较易测量的变量估计不易测量的变量。
- 通过解释变量预测反应变量。
- 通过反应变量控制解释变量。
方法
多重线性回归有进入、逐步、删除、向前和向后,下面重点介绍两种常用的方法,即进入法和逐步法。
- 进入法(enter):即候选自变量全部纳入模型,不作任何筛选,进入法为默认选项。进入法的结果使所有候选变量的P值均显示出来,当然也包括无统计学意义的变量,仅适用于自变量个数不太多的情况。
- 逐步法(stepwise):又称逐步回归法,对自变量按照一定的纳入和排除标准反复进行引入、剔除过程,直到没有变量被引入,也没有变量被剔除为止。从实际运用上说,逐步法运用最广。
多重线性回归分析使用条件
- 线性性:自变量与因变量之间必须呈现线性关系。
- 独立性:残差之间必须相互独立,即每个残差与所有其他残差之间没有系统性关联。
- 正态性:因变量或其残差必须符合正态分布。这是通过残差的统计分析来验证的,包括检查残差的均值和标准差是否接近正态分布。多元线性回归分析不要求自变量正态分布。自变量可以为连续性资料但是非正态分布。
- 方差齐性:对于每一个自变量对应的因变量的方差必须相等。这一条件通过比较自变量的方差与因变量的方差来检验。
- 多重共线性:模型中的自变量不应高度相关,以避免多重共线性问题,这可能会影响模型的估计精度和稳定性。
以上条件确保了多重线性回归分析的有效性和可靠性,是进行此类分析时必须考虑的关键因素。
对于因变量y是呈偏态分布的连续性变量,可以先对因变量进行转换,例如对数、根号等转换,然后看看是否近似正态分布,之后再做线性回归分析。
如果非要用正态的模型来做,可以先画各个自变量对响应变量的散点图来看看趋势,然后再选用合适的变换。当然还有Box-Cox可以试试。但更重要的是,检验模型的假设是在建模之先的,如果明明不服从正态,或者没有线性关系,硬是找到了变换也没有什么意思,要尊重数据本身。
案例的SPSS操作演示
分析示例
为了研究有关糖尿病患者体内脂联素水平的影响因素,某医师测定了30名患者的体重指数BMI(kg/m²)、病程DY(年)、瘦素LEP(ng/ml) 、空腹血糖FPG(mmol/L) 及脂联素ADI(ng/ ml)水平,数据见下表。
研究假设
研究问题:研究脂联素水平Y与相关因素(体重指数X₁、病程X₂、瘦 素X₃、空腹血糖X₄) 之间的关系。
数据录入
- 变量视图
- 名称 X1 标签 体重指数
- 名称 X2 标签 病程
- 名称 X3 标签 瘦素
- 名称 X4 标签 空腹血糖
- 名称 Y 标签 脂联素
- 数据视图(部分)
操作流程
- 该图为线性回归方程的主对话框,设定与简单线性回归类似。
- (1)因变量(D):因变量(dependent variable),又称反应变量(response variable),在简单线 性回归和多重回归当中因变量只有一个,本例指脂联素Y。
- (2)自变量(I): 自变量(independent variable),又称解释变量(explanatory variable)或预测因子(predictor), 本例指体重指数X₁、病程X₂、瘦素X₃和空腹血糖 X₄四个变量。
- (3)方法(M): 多重线性回归有进入、逐步、删除、向前和向后,本例选择逐步法。下面重点介绍两种常用的方法,即进入法和逐步法。
- ①进入法(enter): 即候选自变量全部纳入模型,不作任何筛选,进入法为默认选项。进入法的结果使所有候选变量的P 值均显示出来,当然也包括无统计学意义的变量,仅适用于自 变量个数不太多的情况。
- ②逐步法(stepwise): 又称逐步回归法,对自变量按照一定的纳入和排除标准反复进行引入、剔除过程,直到没有变量被引入,也没有变量被剔除为止。从实际运用上说,逐步法运用最 广。
- 下图为线性回归图形绘制,我们先来谈谈线性回归模型的四个基本条件。
- (1)线性趋势:自变量和因变量的关系是线性的,如果不是,则不能采用线性回归来分析, 这可以通过散点图来判断。
- (2)独立性:可表述为因变量Y的取值互相独立,它们之间没有联系。反映到模型中,实 际上就要求残差间相互独立,不存在自相关。
- (3)正态性:就自变量的任何一个线性组合,因变量Y服从正态分布,实际要求残差服从 正态分布。
- (4)方差齐性:就自变量的任何一个线性组合,因变量Y的方差均相同,实质要求残差的 方差齐。
故残差分析是回归诊断的一个重要环节,考察残差是否服从正态分布可以通过绘制标准 化残差的直方图和正态概率图(PP 图)进行,因变量与自变量间关系非线性、残差方差不齐、 观察值间不独立等情况均会导致残差的直方图和正态概率图表现出非正态。
结果解释
下面的表格依次列出了模型筛选过程,模型1引入了变量瘦素X₃, 而模型2引入了变 量体重指数X₁, 另外两个变量均未达到进入标准,最终没有纳入。右侧注明的方法为步进法 (stepwise), 即逐步回归法,其纳入标准为≤0.050,排除标准为≥0.100。
下表为拟合模型的拟合优度情况简报,其重要指标为R方 (R Squave),称为决定系数(coefficient determination),为相关系数的平方。R² 取值在0到1之间,且无单位。它反映了回 归贡献的相对程度,即在因变量Y 的总变异中回归关系所解释的比例。在实际应用中,通过 决定系数反映回归的实际效果。如模型1含有变量瘦素,R²=0.657, 说明瘦素可以解释脂联 素信息的65.7%,而模型2含有变量瘦素和体重指数,说明这两个变量可解释脂联素信息的 70.7%。可见,从上至下随着新变量的引入,模型可解释的变异占总变异的比例越来越大。
该表继续对各拟合模型进行检验,即两个模型是否有统计学意义,模型1中F= 53.626,P<0.01, 模 型 2 中F=32.560,P<0.01, 可见两个模型均有统计学意义。
这是线性回归分析中最重要的一个表格,给出了模型1和模型2的常数项和各变量的系数(包括非标准化系数和标准系数),并对其是否有统计学意义进行检验。模型2为最终的拟合结果,变量瘦素t=-3.112,P<0.01;体重指数t=-2.145,P<0.05,说明变量各项的偏 回归系数均有统计学意义,最后的回归方程为Y=53.481-0.753X₃-1.087X₁
下表反映了没有进入模型的各个变量的检验结果,模型1中未引入模型的体重指数X₁ 有统计学意义,说明模型需要继续拟合;模型2中未引入模型的各变量均无统计学意义,因此模型不需要继续进行拟合,模型2为最终模型。
这是残差分析的直方图,图中的曲线为正态参考曲线,可见残差基本呈正态分布,说明 该数据比较符合线性回归模型的适用条件,如独立性、正态性和方差齐性。
下图为因变量观察累计概率和模型预测值累计概率间的正态PP图,用于观察残差分布是否呈正态,可见散点基本围绕参考直线均匀分布,说明该数据比较符合线性回归模型的适 用条件,如独立性、正态性和方差齐性。
参考:《临床医学研究中的统计分析和图形表达实例详解》