机器学习之方差与标准差
创作时间:
作者:
@小白创作中心
机器学习之方差与标准差
引用
CSDN
1.
https://blog.csdn.net/dundunmm/article/details/144486672
在机器学习中,方差(Variance)和标准差(Standard Deviation)是用于描述数据分布特性的两个重要统计量,广泛应用于数据分析、模型评价和优化等多个方面。
1. 方差(Variance)
方差衡量的是数据点与均值之间的离散程度。具体来说,它是数据集中每个数据点与其均值的差值的平方的平均值。
公式:
- N:数据点的总数量。
- xi:第 i 个数据点。
- μ:数据的均值。
- \sigma^2:方差。
意义:
- 方差越大,说明数据的分布越分散。
- 方差为零时,所有数据点都与均值相同。
应用:
- 特征选择:通过方差判断某些特征是否具有足够的信息量,若某特征方差接近零,可能表明该特征没有区分能力。
- 正则化:模型过拟合时,可能导致训练数据预测误差的方差变大;正则化方法(如 L2 正则化)有助于控制方差。
2. 标准差(Standard Deviation)
标准差是方差的平方根,用于衡量数据的离散程度。它与方差的关系为:
意义:
- 标准差和方差本质相同,但标准差与原始数据的单位一致,便于直观理解。
- 标准差越大,说明数据波动越大;标准差小,数据更加集中。
3. 方差与标准差的应用场景
(1)评估模型性能
- Bias-Variance Tradeoff:机器学习模型需要在偏差(Bias)和方差(Variance)之间权衡。
- 偏差:模型预测值与真实值的系统性误差,通常与欠拟合相关。
- 方差:模型对训练数据的敏感程度,通常与过拟合相关。
(2)正态分布中的应用
在正态分布中,数据的标准差具有以下意义:
- μ±σ:包含约 68% 的数据。
- μ±2σ:包含约 95% 的数据。
- μ±3σ:包含约 99.7% 的数据。
(3)特征缩放
标准差用于标准化(Standardization)数据:
这种处理使得数据具有零均值和单位标准差,帮助模型更快收敛。
4. 方差与标准差的区别
指标 | 定义 | 单位 | 易用性 |
|---|---|---|---|
方差(\sigma^2) | 数据点与均值的离散程度的平方 | 数据平方单位 | 计算中常用 |
标准差(\sigma) | 数据离散程度的平方根,与数据单位一致 | 与数据相同 | 更直观、更易解释 |
5. 示例
假设一组数据:2,4,6,8,10
- 计算均值:
- 计算方差:
- 计算标准差:
6. 总结
- 方差和标准差是评估数据分布特性的重要指标。
- 它们在数据预处理、模型训练与评估中具有广泛的应用。
- 在实际应用中,标准差因其单位一致性更直观,而方差在理论分析中更常使用。
热门推荐
午时茶颗粒的功效是什么
精确到每一分钟:提升生产力的日程安排管理方法
全国人均寿命排行最新出炉:决定寿命长短的行为,睡眠第九,跑步第二,第一是……
刷新“进度条” 漳州向着“地铁时代”迈进
如何教孩子学英语?这份实用指南请收好!
中国深空探测走向更深更远
21 世纪以来金价上涨 800%,2025 年前夕金价再次震惊预测
如何选择和搭配泳衣,提升夏季自信与时尚感的技巧指南
膨化食品是油炸食品吗?膨化食品的种类全解析
经济犯罪具体包括几种罪名类型
买红薯时,挑“细长”还是“粗圆”!好多人都不懂,没想到有区别
罗勒完全指南:品种、种植、储存及健康益处
中央汇金、社保、养老、证金……一图看懂“国家队”最新持仓!
了解伦敦金交易时间,把握投资机遇
《西游记》里的二郎神杨戬「听调不听宣」是什么意思?
金店、银行等“混战”黄金回购,哪个渠道收益最大最便捷?
一个动作早晚3分钟,轻松震出体内沉积,连气血都通畅了
冬季保暖新风尚:三明治穿衣法巧搭配与时尚秘诀
使用免费PDF编辑器修改PDF文件内容的在线方法
“年假清零”冲上热搜!律师提醒:放弃年休假必须书面申请才算数
前勇士主教练建议:给克莱·汤普森年薪2500万美元足矣
分镜表制作技巧:从零开始学习
肺癌放疗一个疗程几天
如何挑选健身房?用这张评估表找「省钱又舒适」的健身场馆
电工领域各类证书详解:等级证、操作证与工程师证的区别
如何优雅地拒绝团队协作邀请
固态电池最新研发进展 谁将率先突围?
洗碗机多久清洁一次好?家用洗碗机清洁保养方法大全
保送到暨南大学就读,全红婵“双喜临门”,优劣双重分析
不锈钢的金相、特性、工艺等问题详解