为什么一定要用残差图检查你的回归分析?
创作时间:
作者:
@小白创作中心
为什么一定要用残差图检查你的回归分析?
引用
1
来源
1.
https://www.pianshen.com/article/3676210356/
在进行回归分析时,残差图是验证模型有效性的关键工具。它不仅能够帮助我们检查模型的拟合情况,还能揭示模型中可能存在的问题。本文将深入探讨残差图的重要性及其如何帮助我们改进回归模型。
什么是残差图?
残差图是指以残差为纵坐标,以任何其他指定的量为横坐标的散点图。在使用普通最小二乘法(OLS)进行回归分析后,我们通常需要通过残差图来验证模型的有效性。但为什么一定要用残差图呢?这背后既有数学原因,也有直观的解释。
模型的基本组成部分
一个有效的回归模型可以分为两个基本组成部分:
- 确定性部分(Deterministic Portion):这部分由关于预测自变量的函数组成,包含了模型中所有可解释、可预测的信息。
- 随机误差(Stochastic Error):这部分不仅包含随机性,还包含不可预测性。这意味着在误差中不应该含有任何可解释、可预测的信息。
残差图的作用
残差图可以帮助我们检查模型的随机误差是否符合预期。理想情况下,残差应该呈现随机分布,没有明显的模式。如果残差图显示出某种规律性,那么就说明模型可能存在问题,需要进行调整。
正确的残差图特征
- 残差应该以0为中心,均匀分布在拟合值的范围内。
- 残差应该呈现正态分布,且在整个拟合范围内具有恒定的扩散。
下面是一个使用Seaborn绘制的正确残差图示例:
%matplotlib inline
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
np.random.seed(sum(map(ord, "anscombe")))
import seaborn as sns
anscombe = sns.load_dataset("anscombe")
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'I'"), scatter_kws={"s": 80})
错误的残差图特征
如果残差图显示出某种规律性,那么就说明模型可能存在问题。例如,下面这个残差图就显示出明显的非随机模式:
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'II'"), scatter_kws={"s": 80})
在这个例子中,我们可以根据拟合值预测残差的非零值。例如,拟合值为9的预期残差为正值,而5和13的拟合值具有负的预期残差。这种非随机模式表明模型的确定部分没有捕获一些可解释的信息,可能需要考虑以下几种情况:
- 缺失的变量
- 缺少高阶项来解释曲率
- 缺少交叉项
此外,还需要注意以下两种情况:
- 残差不应该与另外的变量相关
- 相邻残差不应该相互关联
总结
残差图是验证回归模型有效性的重要工具。一个理想的残差图应该体现出随机性和不可预测性。通过检查残差图,我们可以发现模型可能存在的问题,并据此进行调整,以获得更准确的预测结果。
热门推荐
秋冬自驾游打卡:青岛跨海大桥
文化中国行|回家过年!中国春节何以成“人类非遗代表作”
喜乐安宁中国年 联合国里庆春节
经济日报聚焦杨浦!数字经济蓬勃发展的背后是……
聚焦产业数字蝶变!这场沙龙为杨浦发展注入新动能
消防水带的正确盘卷和使用方法,你知道吗?
久零年:正宗“红烧肉”做法
“立春后生的孩子就属龙”?国家标准这样说→
白岩松揭秘:如何保持最佳主持状态?
白岩松:从央视到社会变迁的见证者
消防安全小知识:逃生缓降器的正确使用方法
科幻电影排行榜:十部史上评分最高的科幻巅峰之作!
2025春晚首次打卡布达拉宫广场:世界屋脊上的文化盛宴
世界屋脊上的春晚:陈海阳揭秘拉萨分会场筹备始末
布达拉宫前的“文化盛宴”:热巴舞惊艳亮相春晚舞台
剧透!2025年春节,江西哪里最热闹?
赣州是哪个省?赣州:江西的璀璨明珠,等你来探索!
大语文时代,如何让孩子学好语文
新年必备:完美油发蹄筋教程
别只备感冒胶囊!急救包如何准备?医师公开10大必备药品
七天自驾游,你的车准备好了吗?
西北大环线七日游必备清单揭秘!
七天外省游:旅行瑜伽+徒步,健康满分!
“逃生神器”慎选择,认证产品方可靠
Excel SUMPRODUCT函数完全指南:从入门到精通
橘子皮放锅里蒸一蒸,很多人不知道有啥用,真厉害,既省钱又实用
淮安美食探秘:淮扬菜博物馆里的舌尖诱惑
中国淮扬菜文化博物馆:品味千年美食文化
锦绣谷:庐山最美一日游打卡地
黄鹤楼灯光秀闪耀春晚舞台,演绎“英雄城市”新传奇