问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

量纲与无量纲,标准化、归一化、正则化

创作时间:
作者:
@小白创作中心

量纲与无量纲,标准化、归一化、正则化

引用
CSDN
1.
https://blog.csdn.net/The_dream1/article/details/113854890

在数据科学和机器学习领域,量纲、标准化、归一化和正则化是几个核心概念,它们直接影响模型的训练效果和泛化能力。本文将从基本定义出发,深入探讨这些概念的区别与联系,帮助读者建立清晰的理解框架。

1 量纲与无量纲

1.1 量纲

量纲的核心在于:物理量的大小与单位有关。这句话揭示了量纲的两个关键要素:数和单位。例如,1块钱和1分钱虽然数值相同,但因为单位不同,它们代表的量纲也不同。

1.2 无量纲

无量纲则意味着物理量的大小与单位无关。标量自然是无量纲的,因为它们只有大小而没有方向。此外,比值通常也是无量纲的,比如速度可以表示为“km/s”或“m/s”,但其本质是无量纲的。协方差的相关系数也是一个典型的无量纲量,因为它通过归一化处理消除了量纲的影响,可以直接用于衡量变量间的相关性。

2 标准化

标准化(Standardization)是一种特征缩放方法,其目的是使数据呈现正态分布,从而加速梯度下降等优化算法的收敛速度。具体而言,标准化会调整特征的均值和标准差,使其均值为0,标准差为1。其数学公式如下:

这个过程可以理解为:将原始数据减去其均值,然后除以标准差,从而实现数据的标准化处理。

3 归一化

归一化(Normalization)同样是特征缩放的一种方法,但与标准化略有不同。归一化的主要目标是将数据压缩到[0, 1]区间内,从而消除量纲的影响,便于后续计算和比较。虽然归一化和标准化在某些文献中可能被混用,但从严格意义上讲,它们处理数据的方式和目标有所不同。

4 正则化

正则化(Regularization)与标准化和归一化有着本质的区别。它不是一种特征缩放方法,而是一种防止模型过拟合的技术手段。正则化通过在损失函数中添加惩罚项,来限制模型参数的大小,从而避免模型在训练数据上过度拟合。具体来说,正则化可以看作是对那些训练得过好的特征施加惩罚,以减少模型的复杂度。

在机器学习中,正则化主要用于处理特征间的多重共线性问题。通过引入额外的约束条件,正则化能够有效地清理数据中的噪声,防止模型过拟合。常见的正则化方法包括L1正则化和L2正则化,它们分别通过L1范数和L2范数对模型参数进行约束。

5 总结

  1. 量纲与无量纲的本质区别在于物理量是否依赖于单位。
  2. 标准化和归一化虽然都属于特征缩放方法,但标准化侧重于使数据呈现正态分布,而归一化则侧重于将数据压缩到特定区间。
  3. 正则化是一种完全不同的技术手段,主要用于防止模型过拟合,通过惩罚极端的参数值来提高模型的泛化能力。

值得注意的是,标准化和归一化主要解决的是单个特征内部的量纲差异问题,而不是不同特征之间的权重分配问题。因此,在实际应用中,需要根据具体场景选择合适的处理方法。

参考文献:
https://blog.csdn.net/qq_35357274/article/details/109371492

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号