机器学习中的决定系数(R²)详解
创作时间:
作者:
@小白创作中心
机器学习中的决定系数(R²)详解
引用
CSDN
1.
https://blog.csdn.net/IT_ORACLE/article/details/143624121
决定系数(R²,Coefficient of Determination)是一种用于衡量回归模型预测效果的统计指标。它表示了模型解释目标变量总变异的程度,数值介于 0 和 1 之间,数值越接近 1 表明模型的解释力越强。
1. R²的定义和公式
R²的公式如下:
$$
R^2 = 1 - \frac{RSS}{TSS}
$$
其中:
- $y_i$ 是真实值。
- $\hat{y}_i$ 是模型的预测值。
- $\bar{y}$ 是真实值的平均值。
- $RSS$ 是残差平方和 (Residual Sum of Squares)。
- $TSS$ 是总平方和 (Total Sum of Squares)。
从公式可以看出,R²表示残差平方和占总平方和的比例。换句话说,R²越接近 1,表示模型的预测越接近真实值,模型解释越充分。
2. R²的计算步骤
计算R²的步骤如下:
- 计算真实值的平均值 $\bar{y}$。
- 计算残差平方和 $RSS$。
- 计算总平方和 $TSS$。
- 计算R²值,即使用公式 $R^2 = 1 - \frac{RSS}{TSS}$。
3. R²的解释和意义
- 解释度:R²值表示自变量解释因变量变异的比例。例如,R²=0.8表示模型能解释 80% 的目标变量变异。
- 值域:R²的取值范围通常为 [0, 1]。0 表示模型无法解释任何目标变量的变异,1 表示模型可以完全解释目标变量的变异。
- 负值的情况:在某些情况下,当模型预测效果极差时(例如,模型欠拟合),R²可能为负数。这表示预测值甚至比用平均值预测的效果更差。
4. R²的优缺点
优点
- 直观解释:R²直接表示了模型对目标变量的解释力。
- 适用性广:广泛应用于回归模型的效果评价。
缺点
- 对样本大小敏感:在小样本数据中,R²值容易偏高,可能夸大模型的预测效果。
- 对异常值敏感:由于平方的存在,R²对异常值敏感,异常值可能会过度影响结果。
- 无法区分方向性:仅仅反映解释力,不反映模型预测的方向性,容易掩盖预测偏差。
5. R²的应用
在回归分析、机器学习和经济学等领域,R²是一种常用的评价指标。其应用场景包括:
- 回归模型效果评价:常用于衡量线性回归、多项式回归等模型的解释力。
- 经济和金融数据分析:例如评估某些经济指标对 GDP 增长的解释力。
- 机器学习模型调优:用于评估模型的拟合程度,帮助选择合适的模型或调参。
6. R²与其他误差指标的对比
指标 | MAE | RMSE | R² |
|---|---|---|---|
计算方式 | 绝对误差 | 平方误差 | 残差平方和和总平方和之比 |
值域 | 非负值 | 非负值 | [0, 1](可能为负数) |
异常值敏感性 | 低 | 高 | 高 |
解释力 | 表示模型预测误差的均值 | 表示模型预测误差的均值 | 表示模型解释的变异比例 |
7. Python 实现代码
以下是计算R²的Python代码:
import numpy as np
def r2_score(y_true, y_pred):
ss_res = np.sum((y_true - y_pred) ** 2)
ss_tot = np.sum((y_true - np.mean(y_true)) ** 2)
return 1 - (ss_res / ss_tot)
# 示例
y_true = np.array([3, -0.5, 2, 7])
y_pred = np.array([2.5, 0.0, 2, 8])
result = r2_score(y_true, y_pred)
print("R^2:", result)
运行结果
R^2: 0.9486081370449679
说明
y_true是真实值的数组,y_pred是预测值的数组。ss_res是残差平方和,表示误差的总量。ss_tot是总平方和,表示目标变量的总变异。1 - (ss_res / ss_tot)得出R²值,表示模型对数据变异的解释程度。
图中R²的值接近 1 表示模型的预测接近真实值,具有较高的解释力。
8. R²图解示例
下面将生成一个包含R²计算图解的图示,以便更清楚地理解R²在模型解释力上的作用。
上图展示了R²的计算过程,其中:
- 蓝色圆点连线表示真实值 $y_i$。
- 红色叉点连线表示模型的预测值 $\hat{y}_i$。
- 每条灰色虚线表示预测值与真实值之间的差距,即残差。
为了更直观地理解R²,我们可以用一个散点图展示真实值和预测值的分布:
- 绘制真实值与预测值的散点图:展示所有数据点的真实值与预测值之间的差异。
- 展示总平方和 (TSS):每个数据点到真实值均值的垂直线表示目标变量的总变异。
- 展示残差平方和 (RSS):每个数据点到预测值的垂直线表示模型预测误差。
- 理解解释力:图中R²值越大,模型预测值越接近真实值,即解释力越高。
热门推荐
普通身高父母如何培养出1米92的奥运冠军?这几点非常重要!大家都能做到!
舌头疼痛的原因和治疗方法
中医五色理论:五色与人体健康的奥秘
吃对颜色养身体!秋季五色食谱请收好~
冬季夜尿频繁?试试这款干姜甘草茶!
香蕉中的色胺酸能解决夜尿问题吗?
夜尿问题新突破:专家共识出炉!
古代名士的八段锦养生秘籍大揭秘!
八段锦:古老功法助力现代人减压养生
十大耐玩棋盘游戏排行榜推荐:轻松益智的选择
来大庆赛车小镇,体验汽摩大赛+房车露营!
北海涠洲岛:房车露营摄影秘籍大公开!
从神射手到悲催替补:努诺·戈麦斯的职业生涯回顾
洛阳白云山一日游攻略:冬季美景与实用建议全解析
体检时,胸部DR/CT 如何选?
青稞米的作用与功效 青稞米的营养价值
“赵州桥之行”假日小队活动——感受古桥魅力,传承弘扬中华文化
炉火之花:磁州窑
尿频尿急?这些心理调适技巧帮你缓解尴尬!
阻塞性睡眠呼吸暂停:夜尿背后的隐形杀手
大寒至,健康与生活指南请查收
赵本山坎坷人生:从流浪儿到家喻户晓的小品王再到乡村生活的大叔
“一夜无梦”真的好吗?解密睡眠质量与梦境的关系
《科学》新发现:多巴胺如何影响你的梦?
从达利到当代:梦境艺术的探索与创新
荣格和弗洛伊德的梦境解析大比拼!
改良八段锦:缓解颈椎病焦虑新宠
八段锦:千年养生功法助力现代人缓解颈椎问题
八段锦:办公室里的颈椎救星!
广州地铁十二号线新进展:四站点移交运营测试