问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

回归分析与回归分析中的 R 平方

创作时间:
作者:
@小白创作中心

回归分析与回归分析中的 R 平方

引用
CSDN
1.
https://m.blog.csdn.net/weixin_42219192/article/details/140499082

回归分析是统计学中一种重要的分析方法,用于研究变量之间的定量关系。本文将详细介绍回归分析的基本概念、应用场景以及如何解释回归输出。同时,文章还将深入探讨回归分析中的一个重要指标——R平方值,包括其意义、局限性以及如何正确解读。

1、回归分析

在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

a: 何时应使用回归分析?

使用回归分析来描述一组独立变量与因变量之间的关系。回归分析会产生一个回归方程,其中的系数表示每个独立变量与因变量之间的关系。您还可以使用该方程进行预测。

b: 使用回归分析各种各样的关系

回归分析可以处理很多事情。例如,您可以使用回归分析来执行以下操作:

  • 对多个独立变量进行建模
  • 包括连续变量和分类变量
  • 使用多项式项来模拟曲率
  • 评估交互项以确定一个独立变量的影响是否取决于另一个变量的值

这些功能都很酷,但它们并不具备近乎神奇的能力。回归分析可以解开非常复杂的问题,其中变量像意大利面条一样纠缠在一起。例如,假设您是一名研究以下任一问题的研究人员:

  • 社会经济地位和种族是否影响教育成就?
  • 教育和智商会影响收入吗?
  • 运动习惯和饮食会影响体重吗?
  • 喝咖啡和吸烟与死亡风险有关吗?
  • 某种特定的运动干预是否对骨密度产生与其他体力活动截然不同的影响?

稍后将详细介绍最后两个例子!

c: 使用回归分析来控制独立变量

正如我所提到的,回归分析描述了每个独立变量的变化与因变量的变化之间的关系。至关重要的是,回归还在统计上控制模型中的每个变量。

(1) 控制变量是什么意思?

执行回归分析时,需要分离每个变量的作用。例如,我参加了一项运动干预研究,我们的目标是确定干预是否增加了受试者的骨矿物质密度。我们需要将运动干预的作用与其他可能影响骨矿物质密度的因素(从饮食到其他身体活动)分离出来。

为了实现这一目标,您必须尽量减少混杂变量的影响。回归分析通过估计改变一个独立变量对因变量的影响来实现这一点,同时保持所有其他独立变量不变。此过程可让您了解每个独立变量的作用,而不必担心模型中的其他变量。同样,您需要隔离每个变量的影响。

回归模型可以通过控制混杂因素来帮助您防止虚假相关性混淆您的结果。

(2) 如何控制回归中的其他变量?

回归分析的一个美妙之处在于,您只需将其他独立变量纳入模型中,即可保持它们不变!让我们通过一个例子来看一下这一点。

最近的一项研究分析了咖啡消费对死亡率的影响。初步结果表明,咖啡摄入量越高,死亡风险越高。然而,喝咖啡的人经常吸烟,研究人员在最初的模型中没有包括吸烟。在他们将吸烟纳入模型后,回归结果表明,咖啡摄入量降低死亡风险,而吸烟则增加死亡风险。该模型将每个变量的作用隔离开来,同时保持其他变量不变。您可以在控制吸烟的同时评估咖啡摄入量的影响。方便的是,在观察吸烟的影响时,您也在控制咖啡摄入量。

请注意,这项研究还说明了排除相关变量会产生误导性结果。忽略重要变量会导致其不受控制,并可能使您在模型中包含的变量的结果产生偏差。此警告尤其适用于观察性研究,因为遗漏变量的影响可能不平衡。另一方面,真实实验中的随机化过程往往会平均分配这些变量的影响,从而减少遗漏变量偏差。

d: 如何解释回归输出?

要使用回归分析回答问题,首先需要拟合并验证模型是否良好。然后,查看回归系数和 p 值。当p 值较低(通常 < 0.05)时,独立变量具有统计显著性。系数表示在控制其他 IV 的情况下,在独立变量 (IV) 发生一个单位变化的情况下,因变量的平均变化。

例如,如果你的因变量是收入,而你的 IV 包括智商和教育(以及其他相关变量),你可能会看到如下输出:

低 p 值表明教育和智商都具有统计显著性。智商系数表明,在控制模型中的其他所有变量的情况下,每增加一个智商点,您的收入平均增加约 4.80 美元。此外,在其他变量保持不变的情况下,增加一个教育单位,平均收入将增加 24.22 美元。

回归分析是一种推断统计。p 值有助于确定您在样本中观察到的关系是否也存在于更大的总体中。我写了一篇关于如何解释回归系数及其 p 值的博客文章,我强烈推荐。

e: 获得值得信赖的回归结果

回归分析的强大功能伴随着巨大的责任。很抱歉,但事情必须如此。要获得可以信赖的回归分析结果,您需要执行以下操作:

  • 指定正确的模型。正如我们所见,如果您未能在模型中包含所有重要变量,则结果可能会出现偏差。
  • 检查残差图。确保您的模型能够充分拟合数据。
  • 独立变量之间的相关性称为多重共线性。正如我们所见,一定程度的多重共线性是可以接受的。然而,过度的多重共线性可能是一个问题。

使用回归分析可以让你区分复杂研究问题的影响。你可以通过建模和控制所有相关变量来解开意大利面条,然后评估每个变量所起的作用。

2、如何解释回归分析中的 R 平方

R 平方是线性回归模型的拟合优度度量。此统计数据表示独立变量共同解释的因变量方差的百分比。R 平方以方便的 0 - 100% 比例衡量模型与因变量之间的关系强度。

拟合线性回归模型后,您需要确定模型与数据的拟合程度。它能很好地解释因变量的变化吗?回归分析有几个关键的拟合优度统计数据。在这篇文章中,我们将研究 R 平方 (R 2 ),强调它的一些局限性,并发现一些惊喜。例如,较小的 R 平方值并不总是问题,而较大的 R 平方值不一定是好事!

a: 评估回归模型的拟合优度

线性回归确定产生所有观测值与其拟合值之间最小差异的方程。确切地说,线性回归找到数据集可能的最小残差平方和。

统计学家表示,如果观测值与预测值之间的差异很小且无偏,则回归模型可以很好地拟合数据。在这种情况下,无偏意味着拟合值在观测空间的任何地方都不会系统性地过高或过低。

但是,在评估 R 平方等拟合优度的数值度量之前,您应该评估残差图。残差图可以比数值输出更有效地揭示有偏差的模型,因为它可以显示残差中的问题模式。如果您的模型有偏差,您就不能相信结果。如果您的残差图看起来不错,请继续评估您的 R 平方和其他统计数据。

b: R 平方和拟合优度

R 平方评估数据点在拟合回归线周围的散度。它也被称为判定系数,或多元回归的多重判定系数。对于同一数据集,R 平方值越高,表示观测数据与拟合值之间的差异越小。

R 平方是线性模型解释的因变量变化的百分比。

线性回归确定产生所有观测值与其拟合值之间最小差异的方程。确切地说,线性回归找到数据集可能的最小残差平方和。

统计学家表示,如果观测值与预测值之间的差异很小且无偏,则回归模型可以很好地拟合数据。在这种情况下,无偏意味着拟合值在观测空间的任何地方都不会系统性地过高或过低。

但是,在评估 R 平方等拟合优度的数值度量之前,您应该评估残差图。残差图可以比数值输出更有效地揭示有偏差的模型,因为它可以显示残差中的问题模式。如果您的模型有偏差,您就不能相信结果。如果您的残差图看起来不错,请继续评估您的 R 平方和其他统计数据。

c: R 平方的可视化表示

为了直观地展示 R 平方值如何表示回归线周围的散点,您可以通过观测值绘制拟合值。

为了直观地展示 R 平方值如何表示回归线周围的散点,您可以通过观测值绘制拟合值。


左侧回归模型的 R 平方为 15%,右侧模型的 R 平方为 85%。当回归模型解释更多方差时,数据点更接近回归线。实际上,您永远不会看到 R 2为 100% 的回归模型。在这种情况下,拟合值等于数据值,因此所有观测值都恰好落在回归线上。

d: R 平方有局限性

您不能使用 R 平方来确定系数估计和预测是否有偏差,这就是您必须评估残差图的原因。

R 平方并不能表明回归模型是否能充分拟合您的数据。良好的模型可以具有较低的 R 2值。另一方面,有偏差的模型可以具有较高的 R 2值!

e: 低 R 平方值总是个问题吗?

不!出于多种原因,R 平方值较低的回归模型可以成为非常好的模型。

有些研究领域天生就存在大量无法解释的变异。在这些领域,R 2值必然会较低。例如,试图解释人类行为的研究的 R 2值通常低于 50%。与物理过程等事物相比,人更难预测。

幸运的是,如果 R 平方值较低但独立变量具有统计显著性,您仍然可以得出有关变量之间关系的重要结论。统计显著系数继续表示独立变量发生一个单位偏移时因变量的平均变化。显然,能够得出这样的结论至关重要。

在某些情况下,较小的 R 平方值可能会导致问题。如果您需要生成相对精确的预测(较窄的预测区间),则较低的 R 2值可能会造成严重问题。

要使模型产生有用的预测,R 平方需要多高?这取决于您所需的精度以及数据中存在的变化量。高 R 2是实现精确预测的必要条件,但仅靠 R 2 是不够的,我们将在下一节中揭示这一点。

f: 高 R 平方值总是很好吗?

不!具有高 R 平方值的回归模型可能存在许多问题。您可能认为高 R 2表示模型良好,但请检查下面的图表。拟合线图模拟了电子迁移率和密度之间的关联。


拟合线图中的数据遵循非常低噪声关系,R 平方为 98.5%,这似乎很棒。但是,回归线始终低估和高估曲线上的数据,这是偏差。残差与拟合值图强调了这种不想要的模式。无偏模型的残差随机散布在零附近。非随机残差模式表明尽管 R 2很高,但拟合度很差。务必检查残差图!

当您的线性模型未充分指定时,就会出现这种类型的规范偏差。换句话说,它缺少重要的独立变量、多项式项和交互项。要生成随机残差,请尝试向模型添加项或拟合非线性模型。

各种其他情况都可能人为地夸大您的 R 2。这些原因包括过度拟合模型和数据挖掘。这两种情况都可能产生一个看起来与数据完美契合的模型,但实际上结果可能完全具有欺骗性。

过度拟合模型是指模型与样本的随机特性相吻合的模型。数据挖掘可以利用偶然相关性。无论哪种情况,即使对于完全随机的数据,您也可以获得具有高 R 2的模型!

如果您一味追求较高的 R 平方,那么您将远离简单但有效的首选模型——统计学家称之为简约模型。详细了解简约模型:优势和选择。

g: R 平方并不总是简单的

乍一看,R 平方似乎是一个易于理解的统计数据,它表明回归模型与数据集的拟合程度。然而,它并没有告诉我们全部情况。要了解全貌,您必须结合残差图、其他统计数据和对该主题领域的深入了解来考虑 R 2值。

我将在下一篇文章中继续探讨 R 2的局限性,并研究其他两种类型的 R 2: 调整后的 R 平方和预测的 R 平方。这两个统计数据解决了 R 平方的特定问题。它们提供了额外的信息,您可以通过这些信息评估回归模型的拟合优度。

您还可以阅读有关回归的标准误差 和均方根误差的文章,它们是不同类型的拟合优度测量。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号