为什么一定要用残差图检查你的回归分析?
创作时间:
作者:
@小白创作中心
为什么一定要用残差图检查你的回归分析?
引用
1
来源
1.
https://www.pianshen.com/article/3676210356/
在进行回归分析时,检查残差图是验证模型有效性的关键步骤。本文将深入探讨残差图的概念、重要性以及如何通过残差图来判断模型的有效性。
残差图的基本概念
残差图是指以残差为纵坐标,以任何其他指定的量为横坐标的散点图。在使用普通最小二乘法(OLS)进行回归分析后,通过残差图可以检查模型的假设是否成立,从而验证模型的有效性。
回归模型的组成部分
一个有效的回归模型可以分为两个基本组成部分:
确定性部分(Deterministic Portion):由关于预测自变量的函数组成,包含了回归模型中所有可解释、可预测的信息。
随机误差(Stochastic Error):不仅包含随机性,还包含不可预测性。这两点非常重要,意味着回归模型下的预测值和观测值之间的差异必须是随机且不可预测的。
残差图的作用
残差图可以帮助我们估计观察或预测到的误差(残差)与随机误差是否一致。通过检查残差图,可以判断模型是否遗漏了可预测信息。理想情况下,残差应该呈现为以0为中心的白噪声分布。
正确的残差图示例
下面是一个使用Seaborn绘制的正确残差图示例:
%matplotlib inline
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
np.random.seed(sum(map(ord, "anscombe")))
import seaborn as sns
anscombe = sns.load_dataset("anscombe")
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'I'"), scatter_kws={"s": 80})
错误的残差图示例
下面是一个残差图存在问题的示例:
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'II'"), scatter_kws={"s": 80})
在上图中,可以根据拟合值预测残差的非零值。例如,拟合值为9的预期残差为正值,而5和13的拟合值具有负的预期残差。这表明模型的确定部分没有捕获一些可解释/可预测信息。
残差图的检查要点
- 残差不应该包含任何可预测的信息。
- 残差不应该与另外的变量有所相关。
- 相邻残差不应该相互关联。
最终,理想的残差图不仅要体现出随机性,还要体现不可预测性。
热门推荐
图像粒度粒形分析:解锁微观世界的关键技术
教育部:推动中小学校普遍成立膳食监督家长委员会
四季青竹子怎么种
走进武王墩墓 探寻楚国历史踪迹
一文彻底搞定游戏电脑配置:从预算到硬件细节全解析
胃疼连着背疼怎么治疗
12岁、14岁、16岁、18岁,一起来了解!
菊花茶怎么泡?菊花茶和什么搭配着喝效果最好
渑池之会:古代外交的智慧与勇气
刺槐的特征、习性及生态价值介绍
心理量表编制的步骤
喜怒哀乐怎样产生?我国科学家通过信息融合识别人脑中的层次情绪区域
小学生高效学习方法指南
地质工程师需要具备什么能力
从阳明心学中汲取廉洁文化力量
轻微脑梗挂什么科室比较好
中医建议:冬季适量吃点“凉”,更有助养生
葡萄糖酸锌片是吞服还是含化?服用方法全解析
舌头肿大怎么办?五种快速消肿方法
新农合如何报销医疗费用:政策解读与操作指南
雇佣工受伤后怎么进行赔偿?详解雇佣与赔偿法规
五分钟了解《三三制战术》从抗战到现代的步兵作战理念演变
如何判断家里两只猫的地位高低?
可以口头授权吗:法律效力的分析与实务探讨
汽车暖气温度调节指南:如何既舒适又节能?
工资拖欠问题:女朋友公司陷入纠纷
明明是假的,为什么洋葱新闻还这么受欢迎?
揭秘!洋葱何时悄悄溜进你的菜篮?从伊朗到中国餐桌的葱香传奇
再生科技创新:科学家用大鼠干细胞恢复小鼠脑回路
维生素OTC和保健品的区别:药品与保健品的三大区别点