机器学习中的决定系数（R²）详解

创作时间:

作者:

@小白创作中心

机器学习中的决定系数（R²）详解

引用

CSDN

https://blog.csdn.net/IT_ORACLE/article/details/143624121

决定系数（R²，Coefficient of Determination）是一种用于衡量回归模型预测效果的统计指标。它表示了模型解释目标变量总变异的程度，数值介于 0 和 1 之间，数值越接近 1 表明模型的解释力越强。

1. R²的定义和公式

R²的公式如下：

$$
R^2 = 1 - \frac{RSS}{TSS}
$$

其中：

$y_i$ 是真实值。
$\hat{y}_i$ 是模型的预测值。
$\bar{y}$ 是真实值的平均值。
$RSS$ 是残差平方和 (Residual Sum of Squares)。
$TSS$ 是总平方和 (Total Sum of Squares)。

从公式可以看出，R²表示残差平方和占总平方和的比例。换句话说，R²越接近 1，表示模型的预测越接近真实值，模型解释越充分。

2. R²的计算步骤

计算R²的步骤如下：

计算真实值的平均值 $\bar{y}$。
计算残差平方和 $RSS$。
计算总平方和 $TSS$。
计算R²值，即使用公式 $R^2 = 1 - \frac{RSS}{TSS}$。

3. R²的解释和意义

解释度：R²值表示自变量解释因变量变异的比例。例如，R²=0.8表示模型能解释 80% 的目标变量变异。
值域：R²的取值范围通常为 [0, 1]。0 表示模型无法解释任何目标变量的变异，1 表示模型可以完全解释目标变量的变异。
负值的情况：在某些情况下，当模型预测效果极差时（例如，模型欠拟合），R²可能为负数。这表示预测值甚至比用平均值预测的效果更差。

4. R²的优缺点

优点

直观解释：R²直接表示了模型对目标变量的解释力。
适用性广：广泛应用于回归模型的效果评价。

缺点

对样本大小敏感：在小样本数据中，R²值容易偏高，可能夸大模型的预测效果。
对异常值敏感：由于平方的存在，R²对异常值敏感，异常值可能会过度影响结果。
无法区分方向性：仅仅反映解释力，不反映模型预测的方向性，容易掩盖预测偏差。

5. R²的应用

在回归分析、机器学习和经济学等领域，R²是一种常用的评价指标。其应用场景包括：

回归模型效果评价：常用于衡量线性回归、多项式回归等模型的解释力。
经济和金融数据分析：例如评估某些经济指标对 GDP 增长的解释力。
机器学习模型调优：用于评估模型的拟合程度，帮助选择合适的模型或调参。

6. R²与其他误差指标的对比

指标	MAE	RMSE	R²
计算方式	绝对误差	平方误差	残差平方和和总平方和之比
值域	非负值	非负值	[0, 1]（可能为负数）
异常值敏感性	低	高	高
解释力	表示模型预测误差的均值	表示模型预测误差的均值	表示模型解释的变异比例

7. Python 实现代码

以下是计算R²的Python代码：

import numpy as np

def r2_score(y_true, y_pred):
    ss_res = np.sum((y_true - y_pred) ** 2)
    ss_tot = np.sum((y_true - np.mean(y_true)) ** 2)
    return 1 - (ss_res / ss_tot)

# 示例
y_true = np.array([3, -0.5, 2, 7])
y_pred = np.array([2.5, 0.0, 2, 8])
result = r2_score(y_true, y_pred)
print("R^2:", result)