为什么一定要用残差图检查你的回归分析?
创作时间:
作者:
@小白创作中心
为什么一定要用残差图检查你的回归分析?
引用
1
来源
1.
https://www.pianshen.com/article/3676210356/
在进行回归分析时,检查残差图是验证模型有效性的关键步骤。本文将深入探讨残差图的概念、重要性以及如何通过残差图来判断模型的有效性。
残差图的基本概念
残差图是指以残差为纵坐标,以任何其他指定的量为横坐标的散点图。在使用普通最小二乘法(OLS)进行回归分析后,通过残差图可以检查模型的假设是否成立,从而验证模型的有效性。
回归模型的组成部分
一个有效的回归模型可以分为两个基本组成部分:
确定性部分(Deterministic Portion):由关于预测自变量的函数组成,包含了回归模型中所有可解释、可预测的信息。
随机误差(Stochastic Error):不仅包含随机性,还包含不可预测性。这两点非常重要,意味着回归模型下的预测值和观测值之间的差异必须是随机且不可预测的。
残差图的作用
残差图可以帮助我们估计观察或预测到的误差(残差)与随机误差是否一致。通过检查残差图,可以判断模型是否遗漏了可预测信息。理想情况下,残差应该呈现为以0为中心的白噪声分布。
正确的残差图示例
下面是一个使用Seaborn绘制的正确残差图示例:
%matplotlib inline
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
np.random.seed(sum(map(ord, "anscombe")))
import seaborn as sns
anscombe = sns.load_dataset("anscombe")
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'I'"), scatter_kws={"s": 80})
错误的残差图示例
下面是一个残差图存在问题的示例:
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'II'"), scatter_kws={"s": 80})
在上图中,可以根据拟合值预测残差的非零值。例如,拟合值为9的预期残差为正值,而5和13的拟合值具有负的预期残差。这表明模型的确定部分没有捕获一些可解释/可预测信息。
残差图的检查要点
- 残差不应该包含任何可预测的信息。
- 残差不应该与另外的变量有所相关。
- 相邻残差不应该相互关联。
最终,理想的残差图不仅要体现出随机性,还要体现不可预测性。
热门推荐
让五感“动起来”:解锁沉浸式互动训练新体验
《GRIS》评测:一款无文字、高情感共鸣的独立游戏
赠与需要对方同意吗?附解除条件的赠与合同有效吗?
忘记Steam密码怎么办?简单几步轻松找回账户
乡镇财政信息化管理的问题有哪些表现?
品牌营销VS产品营销:你真的了解它们的区别吗?
KML、KMZ是什么?
花儿红色怎么形容:找到最惊艳的词语!
人参、丹参、党参、西洋参…到底啥区别?功效用法都在这了
乌鲁木齐市水磨沟区:促进兵地医疗卫生资源融合 群众共享优质服务
保护膝关节、踝关节,让跑步更轻松
销售收入是主营业务收入吗
中国医院科研竞赛,如何提升竞争力?
香港保险业揭秘:超高佣金制度下的隐忧
欲望是地狱的门,放下才是出路,你才能活得轻松自在
古人说的“人的命天注定”原来真的有科学依据?!
为什么龈下刮治要两三次呢?适应症/可能原因/术后维护建议文内揭秘
牙齿刮治:预防牙龈疾病的重要措施
周杰伦在亚洲算不算是创作“第一人”
睡觉流口水正常吗?有几种情况是身体在报警
什么动物完全以血液为食?全面解读血食性动物
健康科普:关于疟原虫检测,你需要了解这些
夏天上班犯困吃什么好?这些食物帮你提神醒脑
鹦鹉热科普:从传染源到预防措施全解析
如何明确二手房首付的计算方式?这种计算方式存在哪些影响因素?
我们难道生活在“虚拟世界”中?英国一物理学家称或能用实验证明
泸天化:瞄准"专精特新"抢占新赛道
设备管理系统AI大模型应用RAG案例
起诉状如何追加被告:法律程序与实务操作
四川入选全国首批数字化转型升级示范区域,如何让交通基础设施更“智慧”?