问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

误差评估指标详解:RMSE、MSE、标准差与方差

创作时间:
作者:
@小白创作中心

误差评估指标详解:RMSE、MSE、标准差与方差

引用
CSDN
1.
https://blog.csdn.net/weixin_44623642/article/details/142445251

在数据分析和模型评估中,准确理解误差的度量方式至关重要。本文将详细介绍几种常用的误差评估指标,包括均方根误差(RMSE)、均方误差(MSE)、标准差和方差,并探讨它们在实际应用中的意义。

均方根误差(RMSE/RMS)

定义

RMSE是观察值与真实值偏差的平方根平均值。对于一组观测值 $y_i$ 和对应的真值 $t_i$:
$$
RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - t_i)^2}
$$
其中 $n$ 是观测次数。

意义

RMSE衡量了观测值与真值之间的平均误差大小,它对较大的误差更加敏感,因为误差是经过平方后再取平均和开方的。若误差大于1时,RMSE的值越小,说明观测值与真值之间的差异越小,模型的预测精度越高。反之,误差小于1时,同理。

均方误差(MSE)

定义

MSE是观测值与真值偏差的平方和与观测次数的比。对于一组观测值 $y_i$ 和对应的真值 $t_i$:
$$
MSE = \frac{1}{n} \sum_{i=1}^n (y_i - t_i)^2
$$

意义

MSE衡量了观测值与真值之间的平均平方误差,它反映了模型的预测值与真实值之间的差异程度。MSE的值越小,说明模型的预测精度越高。反之,误差小于1时,同理。

应用

RMSE 和 MSE 通常用于评估模型的预测精度,特别是在回归问题中。它们可以帮助我们比较不同模型的性能,选择最优的模型。

标准差

定义

标准差是方差的算术平方根,是一组数据偏离平均数的程度的一种度量。对于一组数据 $x_i$:
$$
\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2}
$$
其中 $\mu$ 是平均数,$n$ 是数据数量。

意义

标准差反映了数据的离散程度,标准差越大,说明数据的波动越大,离散程度越高;标准差越小,说明数据的波动越小,离散程度越低。在模型评估中,标准差可以用来衡量模型预测结果的稳定性。

方差

定义

方差是各个数据与平均数之差的平方值的平均数:
$$
D(x) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2
$$

意义

方差反映了数据偏离平均数的程度。方差越大,说明数据的波动越大,离散程度越高;方差越小,说明数据越集中在平均数附近,离散程度越低。方差通常用来计算样本的离散程度。

正态分布

定义

正态分布,也称高斯分布,其曲线呈钟形。正态分布的概率密度函数为:
$$
f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}
$$
其中 $\mu$ 是均值,$\sigma$ 是标准差。

许多自然现象和社会现象都近似服从正态分布,例如人的身高、体重、考试成绩等。

意义

  1. 决定曲线的“胖瘦”
  • 标准差越大,正态分布曲线越“胖”,数据的分散程度越大。这意味着数据在均值附近的集中度较低,更多的数据分布在离均值较远的位置。
  • 标准差越小,正态分布曲线越“瘦”,数据的分散程度越小。数据更加集中在均值附近。
  1. 概率关系
  • 约68%的数据落在 $[\mu - \sigma, \mu + \sigma]$ 范围内
  • 约95%的数据落在 $[\mu - 2\sigma, \mu + 2\sigma]$ 范围内
  • 约99.7%的数据落在 $[\mu - 3\sigma, \mu + 3\sigma]$ 范围内

在正态分布中,三倍标准差是一个重要的概念,它在质量控制、统计推断和金融风险管理等领域都有广泛的应用。


© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号