问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器学习之方差与标准差

创作时间:
作者:
@小白创作中心

机器学习之方差与标准差

引用
CSDN
1.
https://blog.csdn.net/dundunmm/article/details/144486672

在机器学习中,方差(Variance)和标准差(Standard Deviation)是用于描述数据分布特性的两个重要统计量,广泛应用于数据分析、模型评价和优化等多个方面。

1. 方差(Variance)

方差衡量的是数据点与均值之间的离散程度。具体来说,它是数据集中每个数据点与其均值的差值的平方的平均值。

公式:

  • N:数据点的总数量。
  • xi:第 i 个数据点。
  • μ:数据的均值。
  • \sigma^2:方差。

意义

  • 方差越大,说明数据的分布越分散。
  • 方差为零时,所有数据点都与均值相同。

应用

  • 特征选择:通过方差判断某些特征是否具有足够的信息量,若某特征方差接近零,可能表明该特征没有区分能力。
  • 正则化:模型过拟合时,可能导致训练数据预测误差的方差变大;正则化方法(如 L2 正则化)有助于控制方差。

2. 标准差(Standard Deviation)

标准差是方差的平方根,用于衡量数据的离散程度。它与方差的关系为:

意义

  • 标准差和方差本质相同,但标准差与原始数据的单位一致,便于直观理解。
  • 标准差越大,说明数据波动越大;标准差小,数据更加集中。

3. 方差与标准差的应用场景

(1)评估模型性能

  • Bias-Variance Tradeoff:机器学习模型需要在偏差(Bias)方差(Variance)之间权衡。
  • 偏差:模型预测值与真实值的系统性误差,通常与欠拟合相关。
  • 方差:模型对训练数据的敏感程度,通常与过拟合相关。

(2)正态分布中的应用

在正态分布中,数据的标准差具有以下意义:

  • μ±σ:包含约 68% 的数据。
  • μ±2σ:包含约 95% 的数据。
  • μ±3σ:包含约 99.7% 的数据。

(3)特征缩放

标准差用于标准化(Standardization)数据:
这种处理使得数据具有零均值和单位标准差,帮助模型更快收敛。

4. 方差与标准差的区别

指标
定义
单位
易用性
方差(\sigma^2)
数据点与均值的离散程度的平方
数据平方单位
计算中常用
标准差(\sigma)
数据离散程度的平方根,与数据单位一致
与数据相同
更直观、更易解释

5. 示例

假设一组数据:2,4,6,8,10

  1. 计算均值:
  2. 计算方差:
  3. 计算标准差:

6. 总结

  • 方差和标准差是评估数据分布特性的重要指标。
  • 它们在数据预处理、模型训练与评估中具有广泛的应用。
  • 在实际应用中,标准差因其单位一致性更直观,而方差在理论分析中更常使用。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号