为什么一定要用残差图检查你的回归分析?
创作时间:
作者:
@小白创作中心
为什么一定要用残差图检查你的回归分析?
引用
1
来源
1.
https://www.pianshen.com/article/3676210356/
在进行回归分析时,检查残差图是验证模型有效性的关键步骤。本文将深入探讨残差图的概念、重要性以及如何通过残差图来判断模型的有效性。
残差图的基本概念
残差图是指以残差为纵坐标,以任何其他指定的量为横坐标的散点图。在使用普通最小二乘法(OLS)进行回归分析后,通过残差图可以检查模型的假设是否成立,从而验证模型的有效性。
回归模型的组成部分
一个有效的回归模型可以分为两个基本组成部分:
确定性部分(Deterministic Portion):由关于预测自变量的函数组成,包含了回归模型中所有可解释、可预测的信息。
随机误差(Stochastic Error):不仅包含随机性,还包含不可预测性。这两点非常重要,意味着回归模型下的预测值和观测值之间的差异必须是随机且不可预测的。
残差图的作用
残差图可以帮助我们估计观察或预测到的误差(残差)与随机误差是否一致。通过检查残差图,可以判断模型是否遗漏了可预测信息。理想情况下,残差应该呈现为以0为中心的白噪声分布。
正确的残差图示例
下面是一个使用Seaborn绘制的正确残差图示例:
%matplotlib inline
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
np.random.seed(sum(map(ord, "anscombe")))
import seaborn as sns
anscombe = sns.load_dataset("anscombe")
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'I'"), scatter_kws={"s": 80})
错误的残差图示例
下面是一个残差图存在问题的示例:
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'II'"), scatter_kws={"s": 80})
在上图中,可以根据拟合值预测残差的非零值。例如,拟合值为9的预期残差为正值,而5和13的拟合值具有负的预期残差。这表明模型的确定部分没有捕获一些可解释/可预测信息。
残差图的检查要点
- 残差不应该包含任何可预测的信息。
- 残差不应该与另外的变量有所相关。
- 相邻残差不应该相互关联。
最终,理想的残差图不仅要体现出随机性,还要体现不可预测性。
热门推荐
喝茶前该不该洗茶,这篇文章会告诉你!
瑞虎7和瑞虎8有什么区别
诸葛亮:躬耕南阳还是襄阳?大汉青史也未必是圣旨
新手也能自己做雪媚娘!简单又好吃,谁吃谁知道
ChatGPT内置提示词详解:三大工具的功能与使用规则
“农民依赖驴生存”,非洲将禁驴皮贸易,阿胶产量会遭重创吗
太难了! 加拿大华人回国之路再添波折:航班削减与航司停飞引发乘客焦虑!
周鸿祎送车活动引争议后道歉,零门槛能否挽回用户信任?
中小学多项教育重磅消息公布,2025年北京幼升小新政提前知晓!
方言大揭秘:你的家乡玉米怎么念?
树叶为何天冷才变红?(把自然讲给你听)
为什么佣金水平存在差异?如何选择合理的佣金费率?
海洋霸主鲨鱼为什么也会被淹死?
宏观经济因素如何影响股价涨跌?
新型盘扣式脚手架施工详解!
影响世界的传奇帆船05郑和宝船——古代中国航海史上的壮举
十类建议买的饭盒材质有哪些 饭盒买什么材质的好
什么样的婚姻才是幸福的?
“我们要知道黄金是否还在?”马斯克:将审计美联储和美国黄金储备
造价130亿元,33元即可过桥!黄茅海跨海通道下周开始收费
多组学技术在食品加工与贮藏中的综合探索:从分子机制到应用创新
尿液颜色竟是健康的报警信号?出现这些颜色需重视!
农村劳动力与乡村振兴怎么有效衔接
重庆珍贵建筑名单新鲜出炉,带你了解这些文化瑰宝!
灵芝怎么种植?灵芝的种植时间及管理方法
韩世忠的雪耻之战:大仪之战如何扭转南宋抗金战局?
学习压力大怎么办 如何缓解学生的学习压力
展现旺盛活力 彰显文化自信:国产电影的高质量发展之路
内心强大的孩子,到底是怎么养成的?
什么是考研水区or旱区?内蒙古大学在哪个区?