问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

L1正则化与L2正则化对比解析

创作时间:
作者:
@小白创作中心

L1正则化与L2正则化对比解析

引用
CSDN
1.
https://blog.csdn.net/2401_86968005/article/details/145833812

L1正则化和L2正则化是机器学习中常用的两种正则化方法,它们在模型训练中扮演着至关重要的角色。本文将从数学表达式、核心作用、几何解释、优缺点分析、应用场景等多个维度,对这两种正则化方法进行详细的对比解析。

L1正则化与L2正则化对比解析

一、数学表达式

1. L1正则化(Lasso)

$$
J(\theta) = \text{原始损失函数} + \lambda \sum_{i=1}^n |\theta_i|
$$

  • $\lambda$:正则化强度参数
  • $|\theta_i|$:模型参数的绝对值之和

2. L2正则化(Ridge)

$$
J(\theta) = \text{原始损失函数} + \lambda \sum_{i=1}^n \theta_i^2
$$

  • $\theta_i^2$:模型参数的平方和

二、核心作用对比

特性
L1正则化
L2正则化
参数约束形式
绝对值之和
平方和
解的空间形状
菱形(高维下为多面体)
圆形(高维下为超球体)
参数稀疏性
产生稀疏解(部分参数精确为0)
参数趋向较小值但不为0
特征选择能力
自动执行特征选择
保留所有特征
计算复杂度
优化复杂(需次梯度方法)
计算高效(处处可导)
鲁棒性
对异常值敏感
对异常值较稳定

三、几何解释

1. 二维参数空间可视化

  • L1约束区域:损失函数等高线与菱形顶点相交时,易产生零值参数
  • L2约束区域:最优解通常在坐标轴附近但非零点

2. 高维推广

  • L1正则化:多面体顶点位于坐标轴,导致稀疏性
  • L2正则化:超球面平滑,参数均匀收缩

四、优缺点分析

1. L1正则化

优点

  • 自动特征选择,适合高维数据降维
  • 生成可解释的稀疏模型
  • 抑制过拟合的同时减少计算开销

缺点

  • 不适用于特征高度相关的情况(可能随机选择一个特征)
  • 优化计算复杂(需使用坐标下降等特殊方法)
  • 当特征数>样本数时最多选择n个特征

2. L2正则化

优点

  • 保持特征间的平衡关系
  • 对多重共线性数据更稳定
  • 优化简单(标准梯度下降即可)
  • 理论性质更优(唯一解)

缺点

  • 无法进行特征选择
  • 对无关特征只能缩小影响不能消除
  • 需要更多存储空间保存所有参数

五、应用场景

1. L1正则化典型场景

  • 特征数量远大于样本数(基因组数据、文本分类)
  • 需要明确特征重要性的业务场景(医疗诊断、金融风控)
  • 部署环境对模型大小敏感(移动端模型压缩)

2. L2正则化典型场景

  • 特征数量与样本量相当或更少
  • 特征间存在中低度相关性(房价预测、用户画像)
  • 需要稳定解的工业级模型
  • 神经网络常规正则化手段

六、实践建议

1. 参数选择

  • $\lambda$值调优:通过交叉验证选择,通常L1的$\lambda$范围比L2小1-2个数量级
  • 组合使用:Elastic Net(L1+L2)平衡两种正则化优势

$$
J(\theta) = \text{原始损失} + \lambda_1|\theta| + \lambda_2\theta^2
$$

2. 实现注意

  • L1优化技巧:使用坐标下降、前向后向分裂(FISTA)算法
  • 计算加速:对L2正则化可利用矩阵求逆引理加速计算
  • 标准化预处理:正则化前需对特征标准化(避免尺度影响惩罚项)

七、数学本质

1. L1稀疏性证明

在贝叶斯框架下:

  • L1等价于参数服从拉普拉斯先验分布

$$
p(\theta) \propto e^{-\lambda|\theta|}
$$

  • 拉普拉斯分布在零点处有峰,促进稀疏性

2. L2收缩性证明

  • 对应高斯先验分布

$$
p(\theta) \propto e^{-\lambda\theta^2}
$$

  • 高斯分布对参数进行软性收缩

总结:L1正则化通过特征选择生成简洁模型,L2正则化通过参数收缩保持模型稳定性。实际应用中需根据数据特性和业务需求选择,也可结合两者优势使用Elastic Net。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号