机器学习之方差与标准差
创作时间:
作者:
@小白创作中心
机器学习之方差与标准差
引用
CSDN
1.
https://m.blog.csdn.net/dundunmm/article/details/144486672
在机器学习中,方差(Variance)和标准差(Standard Deviation)是用于描述数据分布特性的两个重要统计量,广泛应用于数据分析、模型评价和优化等多个方面。
1. 方差(Variance)
方差衡量的是数据点与均值之间的离散程度。具体来说,它是数据集中每个数据点与其均值的差值的平方的平均值。
公式:
$$
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
$$
- N:数据点的总数量。
- xi:第 i 个数据点。
- μ:数据的均值。
- \sigma^2:方差。
意义:
- 方差越大,说明数据的分布越分散。
- 方差为零时,所有数据点都与均值相同。
应用:
- 特征选择:通过方差判断某些特征是否具有足够的信息量,若某特征方差接近零,可能表明该特征没有区分能力。
- 正则化:模型过拟合时,可能导致训练数据预测误差的方差变大;正则化方法(如 L2 正则化)有助于控制方差。
2. 标准差(Standard Deviation)
标准差是方差的平方根,用于衡量数据的离散程度。它与方差的关系为:
$$
\sigma = \sqrt{\sigma^2}
$$
意义:
- 标准差和方差本质相同,但标准差与原始数据的单位一致,便于直观理解。
- 标准差越大,说明数据波动越大;标准差小,数据更加集中。
3. 方差与标准差的应用场景
(1)评估模型性能
- Bias-Variance Tradeoff:机器学习模型需要在偏差(Bias)和方差(Variance)之间权衡。
- 偏差:模型预测值与真实值的系统性误差,通常与欠拟合相关。
- 方差:模型对训练数据的敏感程度,通常与过拟合相关。
(2)正态分布中的应用
在正态分布中,数据的标准差具有以下意义:
- μ±σ:包含约 68% 的数据。
- μ±2σ:包含约 95% 的数据。
- μ±3σ:包含约 99.7% 的数据。
(3)特征缩放
标准差用于标准化(Standardization)数据:
$$
z = \frac{x - \mu}{\sigma}
$$
这种处理使得数据具有零均值和单位标准差,帮助模型更快收敛。
4. 方差与标准差的区别
指标 | 定义 | 单位 | 易用性 |
---|---|---|---|
方差(\sigma^2) | 数据点与均值的离散程度的平方 | 数据平方单位 | 计算中常用 |
标准差(\sigma) | 数据离散程度的平方根,与数据单位一致 | 与数据相同 | 更直观、更易解释 |
5. 示例
假设一组数据:2,4,6,8,10
- 计算均值:
$$
\mu = \frac{2+4+6+8+10}{5} = 6
$$
- 计算方差:
$$
\sigma^2 = \frac{(2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2}{5} = 8
$$
- 计算标准差:
$$
\sigma = \sqrt{8} \approx 2.83
$$
6. 总结
- 方差和标准差是评估数据分布特性的重要指标。
- 它们在数据预处理、模型训练与评估中具有广泛的应用。
- 在实际应用中,标准差因其单位一致性更直观,而方差在理论分析中更常使用。
热门推荐
树懒的慢生活:生存智慧与独特方式的完美结合
脚底抽筋的处理方法
AI赋能下的无人机战争:美国无人平台指挥控制革新与未来无人作战展望
中老年人科学护肤与保养全攻略:专业方法大揭秘(附权威期刊说明)
这6种驾驶习惯,可谓是伤车于无形,老司机未必门清
个人居间费税收政策解析:如何合理缴纳税款
圆柏属与刺柏属的异同点及松柏类植物推荐
细胞三种死亡方式:凋亡,焦亡,坏死及其分子机制
合同文件的优先顺序详解
不下雪、晚结冰,“史上最热年”迎来了罕见暖冬?
去除头皮屑小妙招
光学玻璃透镜与非球面透镜有何不同?
探索“尕”字的文化内涵与语言魅力,感受亲密的情感联系
骄阳已至 来看看防晒霜的正确用法
基于多站点静息态fMRI数据集的精神疾病分类管道综合评估
婚姻法房产分配问题探讨
受损钢桥面加固延寿有“新招”——运营20年的宜昌长江公路大桥旧钢桥面升级改造
母乳之殇:父母如何抵制奶粉的诱惑?
如何分析ETF加仓黄金却下跌的现象?这种现象对市场有何影响?
马航MH370重启搜寻!MH370航班的简介,马航乘客都是什么人?
CEO如何通过OKR驱动组织战略落地?
铺设地砖的具体步骤是什么?教你九步实用教程
涤纶线规格详解:涤纶线与锦纶线的四大区别
投影仪系统故障的检测与解决(从故障诊断到维修)
氢能技术科普:一文读懂什么是绿氢?
创办洋务运动可以实现国家繁荣,为何李鸿章参与的洋务运动失败?
洋务派创办的军用工业有哪些
电脑网络动态IP配置:步骤详解与实用指南
可微与可导的关系,探讨可微函数与可导函数的联系
以太网没有有效的IP配置怎么办?六种实用解决方案