回归分析是什么?回归分析是什么检验?
回归分析是什么?回归分析是什么检验?
回归分析是一种在统计学中可靠的方法,用于确定某个变量是否受到其他某些变量的影响。回归分析的伟大之处在于,可能会有多个变量影响目标变量。回归分析可用于预测。
要开始回归分析,必须了解两种类型的变量:
- 因变量:您要检查、理解或预测的变量。
- 自变量:您假设会影响因变量的所有其他变量。
为了开始回归分析,应选择因变量。然后应选择一个或多个您假设会影响因变量的自变量。
下一步是获取用于回归分析的数据。这通常是具有已标识的因变量和自变量的数据集。例如,如果每个变量都有单独的数据集,则可以提取感兴趣的变量并将其合并到新的数据集中。
之后,应绘制数据。因变量始终在x轴上,而自变量始终在y轴上。
从图中可以观察到初始趋势和相关性,它们表明因变量和自变量具有什么样的关系。在左侧的示例中,假设的数据点呈上升趋势。随着自变量的增加,因变量也随之增加。
从图中可以观察到趋势,但是因变量在多大程度上受到自变量的影响?应该计算一条回归线。通常,这可以在STATA或Excel之类的软件中完成。回归线是图中数据点的最佳近似值。
换句话说,雷德曼解释说:“红线是对自变量和因变量之间关系的最好解释。”
计算回归线
计算回归线意味着找到所有数据点的最佳拟合线。对于简单的线性回归分析,通常使用最小二乘法。
线性回归线是形式为y = mx + b的简单线。为了找到最适合您的数据的行,您需要首先找到五个汇总统计信息:
- x值的平均值
- y值的平均值
- x值的标准偏差(表示为sx)
- y值的标准偏差(表示为sy)
- X和Y之间的相关性(表示为r)
回归线的斜率m的计算公式如下:
该公式计算形式为y = mx + b的回归线方程的斜率。现在要计算的最后一部分是y截距b。它可以使用以下公式计算:
其中,分别是x值和y值的均值,m是已经计算出的斜率。
例如,Excel将产生的回归线将类似于y = 6x + 70 + error_term。这与我们计算的简单回归线不同,它具有error_term。
回归线总是考虑一个误差项,因为实际上,自变量从来都不是因变量的精确预测器。
实际上,从属项可能由许多不同的因素决定。回归线只是基于您可用数据的估计值,误差项越大,确定线越不确定。
结论
回归分析有助于确定某些变量对另一个变量的影响。它广泛用于业务分析中,以确定影响目标变量并预测其未来价值的不同因素。
我们已经讨论了什么是回归分析以及如何计算回归线。