统计学中的杠杆点、异常值和影响力详解
创作时间:
作者:
@小白创作中心
统计学中的杠杆点、异常值和影响力详解
引用
CSDN
1.
https://blog.csdn.net/qq_35939846/article/details/139732198
在统计分析和回归模型中,理解数据点的杠杆值、异常值和影响力至关重要。本文将通过详细的定义和实例,帮助读者掌握这些核心概念,并通过直观的散点图进行说明。
概念
杠杆点(Leverage):
- 杠杆点是指观测数据中解释变量(即自变量x)的值非常极端的情况。这些极端值可以是特别高或者特别低。
- 如果一个数据点的杠杆值很大,它对回归模型的影响也很大。这是因为杠杆值较大的观测点会对拟合出的回归线的斜率和截距有更大的影响。
- 杠杆点通过减少残差的方差来增加其对回归线的影响。
异常值(Outliers):
- 异常值是指那些在因变量y上的值与其它数据点的整体趋势不一致的数据点。简单来说,如果大多数数据都在回归线的周围,而有一个点远离这个区域,那它可能就是一个异常值。
- 异常值可能不会对回归线产生很大影响,除非它们也具有高杠杆值。
影响力(Influence):
- 如果一个数据点不仅是异常值,而且具有高杠杆值,它就可能是一个有影响力的点。这意味着这个点不仅y值异常,而且由于x值的极端,它对回归模型产生了重大影响。
- 有影响力的数据点会影响回归分析的结果,包括预测的响应值和回归系数。
例子
这张散点图展示了y与x的关系,并且标出了一个红色的数据点,这个点的y值与其他点相比显得异常高,因此它被标记为异常值(outlier)。不过,这个红色的点虽然是异常值,但不具有影响力。在统计学中,一个有影响力的观测值指的是它在回归分析中能显著改变回归系数的估计。
要检查一个异常值是否具有影响力,我们通常考虑以下几个步骤:
- 杠杆值(Leverage): 对于简单线性回归,杠杆值高的观测点通常是x值非常高或者非常低的点。在这个图中,红色点的x值并不极端,所以它的杠杆值可能不高。
- 学生化残差(Studentized Residuals): 如果残差除以其标准误差后的值非常大(绝对值大于2或3),则认为是异常值。这个红色点的残差(实际值与拟合值的差)可能相当大。
- Cook的距离(Cook’s Distance): Cook的距离是一个衡量观测值影响回归系数估计的统计量。如果Cook的距离大于1,通常被认为该观测点是有影响力的。
- DFFITS值: 这是一个影响统计量,它量化了一个观测值被删除后,拟合值会发生多大变化。通常有一个阈值来判断何时DFFITS值显著大,表明一个点是有影响力的。
- DFBETAS值: 这是评估单个观测值对回归系数估计影响的统计量。如果DFBETAS值对于任何系数绝对值大于2除以sqrt(n),其中n是样本大小,这可能表明观测值对该系数的估计有较大的影响。
这张散点图描绘了一个红色的数据点,根据PPT的文字描述,“The red data point is not an outlier, it has leverage, but it is not influential.” 这表示,尽管这个点在x轴上有较远的位置(即高杠杆值),它对回归模型的影响并不大。
解释如下:
- 杠杆值(Leverage):由于红色点在x轴的值比其他所有数据点都要大,它位于独立变量(x)的值域的一个极端,因此它有高杠杆值。在散点图中,x值较大的点会对回归线的斜率有较大的潜在影响,因为它们可以拉长回归线,使其通过该点。
- 异常值(Outliers):异常值通常是在y轴上有显著不同于其他数据点的趋势的点。这个红色点在y轴上虽然高于其他点,但并不远离可能的回归线。因此,它不是y轴上的异常值。
- 影响力(Influence):一个点即使有高杠杆值,也可能不具影响力,这取决于它是否会显著改变回归线的拟合。影响力可以通过之前提到的统计量(如Cook的距离、DFFITS和DFBETAS值)来衡量。如果这些统计量的值不高,这表明尽管该点有高杠杆值,但它对回归模型的参数估计没有显著影响。
在这张散点图上,红色数据点被描述为一个异常值,它同时具有影响力和杠杆力。
- 异常值(Outlier): 红色点在y轴上的位置比基于其他数据点预测的值要高得多,这表明它在因变量y上是一个异常值。它没有跟随其他数据点的总体趋势。
- 影响力(Influence): 该点被认为具有影响力,意味着它能够显著改变回归线的斜率和截距。这是由于它的y值与回归模型的预测值相差很大,从而影响回归线以适应这个点,尤其是当这个点还具有高杠杆值时。
- 杠杆值(Leverage): 尽管这个点在x轴上的位置并不极端(不是最高或最低),但相对于其他所有数据点,它还是比较靠右的,因此它具有一定的杠杆力。杠杆力的高低取决于数据点在x轴上的位置是否远离其他点的中心(中心趋势或平均值)。
在这个例子中,即使红色点的x值没有超过数据集的范围,但结合其在y上的异常高值,它可能对回归模型的参数估计产生较大影响。要确认这个点是否真的影响了回归线,我们可以通过计算诸如Cook的距离、DFFITS或DFBETAS等诊断统计量来具体分析。这些值如果超出常用的阈值,就能证明这个点是有影响力的。
因此,这个红色数据点可能需要在分析过程中特别注意。在实践中,我们可能需要考虑是否从数据集中删除这个点,或者进行其他的数据变换或加权,以减少它对整体模型的影响。
热门推荐
怎么连车带牌照一起过户
漫步皇城根:从南池子到北大红楼的历史之旅
漫步皇城根,从南池子大街到北大红楼,寻找北京的历史遗迹
捕捉旧州古镇最美瞬间:摄影技巧大揭秘!
北京的世界文化遗产有几处
靖西旧州古镇:绣球街上的千年爱情传奇
靖西旧州古镇:网红民宿里的诗画生活
旧州古镇:橘林密谈与红色记忆
国庆打卡:广西靖西旧州古镇绣球文化之旅
2024年武汉房地产市场总结与2025年趋势展望
2025金价投行预测汇总! 巨头集体看涨黄金
2025年十二生肖爱情运势大揭秘:谁将收获甜蜜爱情?
膳食纤维:如何安全增加摄入量,避免腹胀不适
打篮球丢球谁负责?法律这样说!
棘上韧带炎?解锁正确睡姿秘籍!
中医养生遵循“顺应自然”
《操纵心理学》:揭秘PUA背后的情感操控
PUA:现代恋爱中的情感操控陷阱
《无所畏惧2》全集观看指南:6大资源助你畅享追剧之旅
云冈石窟春节游客量激增至最大承载量90%,特色文化活动吸引游客纷至沓来
春节打卡“最佳旅游乡村”,感受最美自然景观!
广东春节必打卡:潮汕庙会与梅州茶田
三亚春节旅游热度持续攀升,256万游客共赴阳光海浴盛宴
转口贸易:中国企业如何利用马来西亚突破贸易壁垒?
美国高关税下,中国光伏企业如何破局?
“项王杯”虎牙村运会开幕 电竞激情与文化魅力共燃宿迁
楚风汉韵,千年徐州,徐州旅游景点推荐
青海湖四季美如画,你最爱哪个季节?
冬日青甘大环线:青海湖蓝冰与张掖丹霞的绝美邂逅
秋冬自驾青甘大环线,这些美景不容错过!