资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

统计学、机器学习名词解析——TSS、ESS、RSS、拟合优度、调整后拟合优度

创作时间:

作者:

@小白创作中心

统计学、机器学习名词解析——TSS、ESS、RSS、拟合优度、调整后拟合优度

引用

CSDN

https://blog.csdn.net/juewang159632/article/details/140682334

在统计学和机器学习领域，评估模型的拟合优度是至关重要的一步。本文将介绍几个常用的评估指标：TSS（总平方和）、ESS（解释平方和）、RSS（残差平方和）、R-squared（拟合优度）以及Adjusted R-squared（调整后拟合优度）。通过Python代码示例和图形化展示，帮助读者深入理解这些概念及其计算方法。

数据准备

首先，我们随机生成一组数据并进行拟合（注意，这里只是为了演示目的，并不进行严格的拟合）：

import matplotlib.pyplot as plt
import numpy as np

x = np.arange(1, 51)
y = x + np.round(np.random.uniform(-5, 5, 50), 2)

plt.plot(x, x, color='r')  # 理想拟合线
plt.plot(x, y, color='b')  # 实际数据点
plt.show()

关键指标解释

TSS（Total Sum of Squares）：总平方和

TSS反映了数据的总变异，计算公式为：

$$
TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2
$$

其中，$y_i$是实际观测值，$\bar{y}$是所有观测值的平均值。

ESS（Explained Sum of Squares）：解释平方和

ESS反映了模型对数据变异的解释能力，计算公式为：

$$
ESS = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2
$$

其中，$\hat{y}_i$是模型预测值。

RSS（Residual Sum of Squares）：残差平方和

RSS衡量了模型预测误差的总量，计算公式为：

$$
RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

R-squared（拟合优度）

R-squared也称为决定系数，表示模型解释的数据方差比例，计算公式为：

$$
R^2 = \frac{ESS}{TSS}
$$

拟合优度越接近1，模型对数据的解释能力越强，拟合越好。

Python代码实现

下面是计算这些指标的Python代码实现：

def compute_R_square(data_real, data_pred):
    # 计算真实值平均值
    y_mean = sum(data_real) / len(data_real)
    
    # 循环求解TTS
    TSS = 0
    for temp in data_real:
        TSS += (temp - y_mean) ** 2
    
    # 循环求解ESS
    ESS = 0
    for temp in data_pred:
        ESS += (temp - y_mean) ** 2
    
    # 循环求解RSS
    temp_real_pred = data_real - data_pred
    RSS = sum(x ** 2 for x in temp_real_pred)
    
    # 计算拟合优度R方
    R_square = ESS / TSS
    return TSS, ESS, RSS, R_square

将真实值带入得到最终结果：

y_TSS, y_ESS, y_RSS, y_R_square = compute_R_square(y, x)
print(y_TSS, y_ESS, y_RSS, y_R_square)

输出结果：

11065.547048 10416.845352000002 397.7123999999999 0.9413764459013126

调整后拟合优度（Adjusted R-squared）

调整后拟合优度考虑了模型自由度对拟合优度的影响，其会在模型增加自变量但增加的拟合优度并不显著时进行惩罚。计算公式为：

$$
Adjusted\ R^2 = 1 - (1 - R^2) \frac{n-1}{n-k-1}
$$

其中，$n$为样本数量，$k$为自变量个数。

Python代码实现：

def compute_Adjust_R_square(n, k, R_square):
    Adjust_R_square = 1 - (1 - R_square) * (n - 1) / (n - k - 1)
    return Adjust_R_square

得到结果：

0.94015512185759

总结

R-squared衡量模型解释因变量变化的能力，但不考虑模型复杂度。
Adjusted R-squared在计算时考虑了模型的复杂度，通过减去自由度的惩罚项来避免因模型复杂度增加而导致的不合理的优化。

因此，一般来说，当比较不同模型时，调整后拟合优度更适合用作评估标准，因为它可以更准确地反映模型的预测能力，避免了过度拟合的可能性。

由于本文使用的数据是随机生成的，每次运行代码得到的数值可能会有所不同，这是正常现象。

热门推荐

故宫发布纳凉参观路线：智能安检、文创冰棍等你来

海豚的多重寓意：智慧、温和与自由的象征

情绪管理：告别压力痘的秘密武器

掌握这些语言技巧，让你的小说更吸引人！

丹·布朗教你写小说：从选题到成稿的完整指南

用散文写法点亮你的小说创作：从Erbanpo的37种写作技巧中汲取灵感

维A酸乳膏：祛痘神器还是皮肤刺激源？

维生素A帮你远离痘痘困扰

无偿献血：爱心永不过期，政策红利持续释放

小众美食：海南黎族苗族的特色发酵食品——鱼茶

高调归来不到一个月，辛巴被实名举报涉嫌虚假宣传

如何选择铁艺床提升卧室颜值

金养通智慧养老+门店系统，如何借助互联网思维拓展服务范围？

“黑科技”如何有效地为养老服务提质增效？

药师门诊案例：用头孢前不用皮试，认真的？！！

春节出行，药箱里别再装抗生素了

洗地机：工作原理、应用、维护与故障排除全攻略

运动心理学家推荐：如何选择最适合跑步的音乐

马拉松备战：打造你的专属跑步歌单

银行跨境汇款全攻略：从法规到到账时间的全方位指南

高血压早期防治八招：中西医结合守护心血管健康

如何写一份让人难忘的同学录，珍藏青春记忆的心得分享

初中生不同年级的性格特点及中考复习策略

南京摄影攻略：中山陵、明孝陵、夫子庙三大景点拍摄指南

《六姊妹》：何家六姐妹的人生轨迹与结局

两广总督府：见证梧州的历史辉煌，曾是两广地区的政治、经济、文化中心

香橼和柠檬的区别香橼怎么吃治疗咳嗽

赵本山春晚小品的那些爆笑瞬间

北京十一学校vs衡水中学：当素质教育遇上应试教育

A股投资攻略：经典抄底形态与技术指标解析