问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

【机器学习】L1正则化与L2正则化

创作时间:
作者:
@小白创作中心

【机器学习】L1正则化与L2正则化

引用
CSDN
1.
https://blog.csdn.net/Z15922342915/article/details/144945954

在机器学习中,正则化是防止模型过拟合的重要手段。L1正则化和L2正则化是最常见的两种正则化方法,它们通过在损失函数中添加惩罚项来控制模型复杂度。本文将从过拟合的原因出发,详细解释L1和L2正则化的原理、效果及其在概率论中的解释。

过拟合的原因

过拟合发生时,模型学习到了训练数据中的噪声或细节,表现为模型参数过于复杂(例如过大的权重值或过于灵活的假设),导致在测试数据上的表现较差。模型的复杂度由参数的个数和参数的大小范围决定。

正则化的目标

在机器学习中,正则化的目标是控制模型的复杂度,防止过拟合。其常见形式是向损失函数添加一个约束项(正则项)。

L1,L2正则化

L1 和 L2 正则化能够防止过拟合的原因在于它们通过在损失函数中加入惩罚项限制模型的复杂度,抑制参数的无限增大,从而提高模型的泛化能力。

L1正则化

在目标函数中加入模型参数的绝对值之和作为惩罚项。可以使部分参数缩小为零,从而实现特征选择(稀疏性)。对高维数据集特别有用,因为它可以自动筛选出最相关的特征。

优点:

  • 能产生稀疏解,模型更简单。
  • 适用于特征多但有效特征较少的情况。

缺点:

  • 当特征之间高度相关时,选择的特征可能不稳定。

L2正则化

在目标函数中加入模型参数的平方和作为惩罚项。

特点:

  • 会减小参数的绝对值,但不会让其完全变为零。
  • 参数被“均匀”缩小,模型复杂度降低,但不会稀疏。

优点:

  • 对于多重共线性问题(特征相关性高),可以降低过拟合风险。
  • 算法解唯一,稳定性更好。

缺点:

  • 无法实现特征选择,不能自动去除不相关特征。

正则化项会对参数施加惩罚,强迫模型找到一个平衡点:既能拟合数据,又不能让参数无限增大。对过大的参数值进行约束。过拟合往往伴随着模型参数变得极端(过大或过小)。L2正则化会均匀地减小所有参数值,使模型对训练数据的敏感性降低,避免过度拟合噪声。L1正则化会使某些参数值直接变为零,去掉不必要的特征,简化模型结构,从而降低过拟合的可能性。

一些问题:

  • 既要保证w1w2的值小于1,又要保证Loss尽可能小

从概率的角度来看

从贝叶斯角度看,正则化等价于对参数 w引入了先验分布。优势:不仅可以解决过拟合问题,而且可以在参数缩减过程中,将一些重复或不重要的参数直接缩减为零(删除),有提取有用特征的作用。劣势:计算过程复杂,毕竟L1范数不是连续可导的。

L1 正则化与拉普拉斯分布

L1正则化相当于为w加入Laplace分布的先验。

  • 先验分布是指我们在看到数据之前,对模型参数的信念或知识的数学表达。换句话说,先验分布代表了我们在获取观测数据之前,认为某些参数值的可能性有多大。

稀疏性:

  • 拉普拉斯分布在 w=0处有尖锐的峰值,对非零参数的惩罚较强。
  • 这使得 L1 正则化倾向于让部分参数完全为 0,产生稀疏解。

L2 正则化与高斯分布

L2正则化相当于为w加入Gaussian分布的先验。

在贝叶斯框架中,L2 正则化对应参数 w 服从高斯分布(正态分布):

高斯分布的概率密度在 w=0附近变化缓慢,对较大的 w惩罚更强。L2 正则化不会将参数直接压缩为 0,而是让其趋近于零。

从贝叶斯角度来看,正则化相当于对模型参数引入了先验分布,即对模型参数加了分布约束:

  • L1正则,模型参数服从拉普拉斯分布,只有很小的|w|,才能得到较大的概率,
  • L2正则,模型参数服从高斯分布对大的|w|,概率较低,而在接近0的时候,概率变换缓慢,最终解的w趋于0附近。

w更容易取到0;

假设w符合拉普拉斯分布时,可以获得L1正则化后的目标函数。而此时w更容易取到0附近。

w更容易取到0附近

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号