L1正则化与L2正则化对比解析
创作时间:
作者:
@小白创作中心
L1正则化与L2正则化对比解析
引用
CSDN
1.
https://blog.csdn.net/2401_86968005/article/details/145833812
L1正则化和L2正则化是机器学习中常用的两种正则化方法,它们在模型训练中扮演着至关重要的角色。本文将从数学表达式、核心作用、几何解释、优缺点分析、应用场景等多个维度,对这两种正则化方法进行详细的对比解析。
L1正则化与L2正则化对比解析
一、数学表达式
1. L1正则化(Lasso)
$$
J(\theta) = \text{原始损失函数} + \lambda \sum_{i=1}^n |\theta_i|
$$
- $\lambda$:正则化强度参数
- $|\theta_i|$:模型参数的绝对值之和
2. L2正则化(Ridge)
$$
J(\theta) = \text{原始损失函数} + \lambda \sum_{i=1}^n \theta_i^2
$$
- $\theta_i^2$:模型参数的平方和
二、核心作用对比
特性 | L1正则化 | L2正则化 |
|---|---|---|
参数约束形式 | 绝对值之和 | 平方和 |
解的空间形状 | 菱形(高维下为多面体) | 圆形(高维下为超球体) |
参数稀疏性 | 产生稀疏解(部分参数精确为0) | 参数趋向较小值但不为0 |
特征选择能力 | 自动执行特征选择 | 保留所有特征 |
计算复杂度 | 优化复杂(需次梯度方法) | 计算高效(处处可导) |
鲁棒性 | 对异常值敏感 | 对异常值较稳定 |
三、几何解释
1. 二维参数空间可视化
- L1约束区域:损失函数等高线与菱形顶点相交时,易产生零值参数
- L2约束区域:最优解通常在坐标轴附近但非零点
2. 高维推广
- L1正则化:多面体顶点位于坐标轴,导致稀疏性
- L2正则化:超球面平滑,参数均匀收缩
四、优缺点分析
1. L1正则化
优点:
- 自动特征选择,适合高维数据降维
- 生成可解释的稀疏模型
- 抑制过拟合的同时减少计算开销
缺点:
- 不适用于特征高度相关的情况(可能随机选择一个特征)
- 优化计算复杂(需使用坐标下降等特殊方法)
- 当特征数>样本数时最多选择n个特征
2. L2正则化
优点:
- 保持特征间的平衡关系
- 对多重共线性数据更稳定
- 优化简单(标准梯度下降即可)
- 理论性质更优(唯一解)
缺点:
- 无法进行特征选择
- 对无关特征只能缩小影响不能消除
- 需要更多存储空间保存所有参数
五、应用场景
1. L1正则化典型场景
- 特征数量远大于样本数(基因组数据、文本分类)
- 需要明确特征重要性的业务场景(医疗诊断、金融风控)
- 部署环境对模型大小敏感(移动端模型压缩)
2. L2正则化典型场景
- 特征数量与样本量相当或更少
- 特征间存在中低度相关性(房价预测、用户画像)
- 需要稳定解的工业级模型
- 神经网络常规正则化手段
六、实践建议
1. 参数选择
- $\lambda$值调优:通过交叉验证选择,通常L1的$\lambda$范围比L2小1-2个数量级
- 组合使用:Elastic Net(L1+L2)平衡两种正则化优势
$$
J(\theta) = \text{原始损失} + \lambda_1|\theta| + \lambda_2\theta^2
$$
2. 实现注意
- L1优化技巧:使用坐标下降、前向后向分裂(FISTA)算法
- 计算加速:对L2正则化可利用矩阵求逆引理加速计算
- 标准化预处理:正则化前需对特征标准化(避免尺度影响惩罚项)
七、数学本质
1. L1稀疏性证明
在贝叶斯框架下:
- L1等价于参数服从拉普拉斯先验分布
$$
p(\theta) \propto e^{-\lambda|\theta|}
$$
- 拉普拉斯分布在零点处有峰,促进稀疏性
2. L2收缩性证明
- 对应高斯先验分布
$$
p(\theta) \propto e^{-\lambda\theta^2}
$$
- 高斯分布对参数进行软性收缩
总结:L1正则化通过特征选择生成简洁模型,L2正则化通过参数收缩保持模型稳定性。实际应用中需根据数据特性和业务需求选择,也可结合两者优势使用Elastic Net。
热门推荐
致命鼹鼠:俄乌冲突中的突击无人车日趋重型化
房子有贷款的情况下可以过户吗?房屋过户注意事项
毛发管理有哪些项目
炉火照天地:解读李白这首诗背后的意境与情怀
政府工作报告中的“宿迁使命和实践” | 高端纺织何以成为宿迁第二个千亿级产业
机器学习评估指标详解:精确率、召回率与F1分数
运动强度如何量化?心率区间训练详解
冷链物流运输管理解决方案思路
常山北明大消息!拟引入新能源及智慧城市业务,剥离纺织业务
这种病不仅仅是老化病,一定要注意
最新研究:老药新用,缓解关节疼痛、僵硬,6个月效果明显!
多样化的葡萄干吃法与健康益处,让生活更美味更精彩
葡萄干有什么作用
如何应对金融市场中的短期市场波动与长期投资策略的协调?
如何进行基金投资并实现合理收益?这种投资在市场波动中的风险如何控制?
短视频运营宝典:从制作到推广的全面指南
南航团队研发新型柔性负重轮:提升履带车辆平顺性与通过性
《黑神话:悟空》:年少只知大圣勇,中年方懂悟空怂
安全资格证书的种类及其要求
十佳自然吸气家用车
适合50岁练的瑜伽
探索INFJ人格特征与人际关系的深度解析
尺与厘米的换算关系:连接传统文化与现代生活的纽带
Nature正刊!四川厌氧生物首席科学家承磊带领团队发现“隐藏”的甲烷古菌
精准服务畅通城市脉搏 坐着公交游邕城更惬意
如何降低医患纠纷的发生
从0开始学统计:什么是Z-score
“非遗”点亮元宵佳节 传统民俗精彩纷呈焕发新活力
黄沙→绿洲 沙漠种麦人教你如何种麦治沙
麦子种植知识培训课件