问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

均值、标准差、信噪比和标准化:数据分析中的核心概念

创作时间:
作者:
@小白创作中心

均值、标准差、信噪比和标准化:数据分析中的核心概念

引用
CSDN
1.
https://blog.csdn.net/weixin_43135178/article/details/143225151

在数据分析和机器学习领域,均值、标准差、信噪比和标准化是几个核心概念。它们不仅帮助我们理解数据的分布特征,还在数据预处理和模型训练中发挥着重要作用。本文将详细解释这些概念的定义、计算方法及其在实际应用中的意义。

均值(mean)

均值的意义:
均值提供了数据的中心值,能够反映数据的整体趋势

标准差(std)

意义:
标准差是衡量数据的分散程度,它表示数据点平均离开平均值有多远。

68-95-99.7 规则: 在正态分布中,标准差有一个特别重要的性质,通常被称为 68-95-99.7 规则:

  1. 约68%的数据落在平均值正负一个标准差的范围内。
  2. 约95%的数据落在平均值正负两个标准差的范围内。
  3. 约99.7%的数据落在平均值正负三个标准差的范围内。

概率密度函数的形状:标准差决定了正态分布曲线的"宽度"或"陡峭程度"。

  1. 较小的标准差会产生一个较窄且高的分布曲线。说明数据比较集中在均值附近
  2. 较大的标准差会产生一个较宽且矮的分布曲线。说明数据比较散乱

标准化 (Normalization)

定义:
标准化是将数据通过减去均值并除以标准差的方式进行转换,使数据具有零均值和单位方差(标准差为1)。

意义:
将给定数据与目标数据的分布对齐
标准化的目的是消除数据的量纲差异,使不同特征在同一个尺度上进行比较,从而更好地适应模型的训练过程。标准化后的数据具有零均值和单位标准差,使得模型能够更快收敛。

信噪比 (Signal-to-Noise Ratio, SNR)

计算:
通常计算为特征的均值与标准差的比值

意义:
信噪比是数据中的信号与噪声的比值,表示某个特征中有用信息(信号)与无用信息(噪声)的比例。
信噪比越高,表示该样本含有更多的信息量,该样本比其他样本更重要

信噪比的值:

  • 信噪比大于1:特征在目标样本中表现显著,具有较好的区分能力和稳定性。
  • 信噪比小于1:特征的表现不够显著,不适合用于分析或建模。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号