弹性网络回归(Elastic Net Regression)详解与实践
创作时间:
作者:
@小白创作中心
弹性网络回归(Elastic Net Regression)详解与实践
引用
CSDN
1.
https://blog.csdn.net/qq_44133607/article/details/140480408
弹性网络回归(Elastic Net Regression)是一种结合了岭回归(Ridge Regression)和Lasso回归(Lasso Regression)优点的线性回归方法。它通过引入两个正则化参数,既能实现特征选择,又能保持模型稳定性。本文将详细介绍弹性网络回归的理论知识、数学公式推导、实施步骤以及参数解读,并通过实际代码示例展示其应用效果。
理论背景
弹性网络回归结合了岭回归(Ridge Regression)和Lasso回归(Lasso Regression)的优点,通过引入两个正则化参数来实现特征选择和模型稳定性。它解决了Lasso在处理高相关特征时的缺陷,并且在处理高维数据时表现优异。
数学公式
Elastic Net回归的损失函数如下:
目标函数:Elastic Net的目标函数是均方误差(MSE)和两个正则化项的加权和。
梯度下降:通过梯度下降法求解目标函数的最小值,更新回归系数。
特征选择:L1正则化项可以将一些回归系数缩小为零,从而实现特征选择。
模型稳定性:L2正则化项增加了模型的稳定性,减少过拟合。
实施步骤
数据预处理:标准化或归一化数据。
拆分数据集:将数据集拆分为训练集和测试集。
模型训练:使用Elastic Net回归模型进行训练。
模型评估:使用测试集评估模型性能。
参数解读
未优化模型实例
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import ElasticNet
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 生成示例数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1) * 0.5
# 数据分割为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 数据标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
# 转换 y_train 和 y_test 为一维数组
y_train = y_train.ravel()
y_test = y_test.ravel()
# 创建Elastic Net回归模型
elastic_net = ElasticNet(alpha=1.0, l1_ratio=0.5)
elastic_net.fit(X_train_scaled, y_train)
# 进行预测
y_pred = elastic_net.predict(X_test_scaled)
# 模型评估
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")
print(f"Intercept: {elastic_net.intercept_}")
print(f"Coefficients: {elastic_net.coef_}")
# 可视化结果
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.plot(X_test, y_pred, color='red', label='Predicted')
plt.xlabel("X")
plt.ylabel("y")
plt.title("Elastic Net Regression")
plt.legend()
plt.show()
结果解释
- Mean Squared Error (MSE): 表示预测值与实际值之间的平均平方误差。值越小,模型性能越好。
- R^2 Score: 决定系数,度量模型的拟合优度。值越接近1,模型解释力越强。
- Intercept: 截距,表示回归方程在y轴上的截距。
- Coefficients: 回归系数,表示自变量对因变量的影响。
优化后的模型实例
from sklearn.linear_model import ElasticNetCV
# 创建带交叉验证的Elastic Net回归模型
elastic_net_cv = ElasticNetCV(alphas=np.logspace(-6, 6, 13), l1_ratio=np.linspace(0.1, 1.0, 10), cv=5)
elastic_net_cv.fit(X_train_scaled, y_train)
# 进行预测
y_pred_cv = elastic_net_cv.predict(X_test_scaled)
# 模型评估
mse_cv = mean_squared_error(y_test, y_pred_cv)
r2_cv = r2_score(y_test, y_pred_cv)
print(f"Best Alpha: {elastic_net_cv.alpha_}")
print(f"Best L1 Ratio: {elastic_net_cv.l1_ratio_}")
print(f"Mean Squared Error (CV): {mse_cv}")
print(f"R^2 Score (CV): {r2_cv}")
print(f"Intercept (CV): {elastic_net_cv.intercept_}")
print(f"Coefficients (CV): {elastic_net_cv.coef_}")
# 可视化结果
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.plot(X_test, y_pred_cv, color='red', label='Predicted')
plt.xlabel("X")
plt.ylabel("y")
plt.title("Elastic Net Regression with Cross-Validation")
plt.legend()
plt.show()
结果解释
- Best Alpha: 通过交叉验证选择的最佳正则化参数。
- Best L1 Ratio: 通过交叉验证选择的最佳L1正则化比例。
- Mean Squared Error (CV): 交叉验证后的均方误差。
- R^2 Score (CV): 交叉验证后的决定系数。
- Intercept (CV): 交叉验证后的截距。
- Coefficients (CV): 交叉验证后的回归系数。
通过比较两个实例,可以看出优化后的模型通过交叉验证选择了最佳的正则化参数,从而提高了模型的预测性能和泛化能力。
热门推荐
考研复试一般什么时候开始?全面了解复试时间安排
电气工程学科发展战略:从材料创新到电力新应用
数学模型在自然科学中的应用
法定节假日劳动法可以调休吗
原癌基因和抑癌基因的作用
原癌基因和抑癌基因作用
夏朝:第一个王朝的开始
分家析产对簿公堂 法官调解化解矛盾
直播如何突破观众互动瓶颈?解析提升参与度的技巧与策略
“法治小铺”进校园 趣味普法润童心——九江市双峰小学开展法治宣传创新活动
优秀领导者应具备的七大核心特质
外汇法定节假日休市时间安排表
信用卡逾期会申请财产保全吗?信用卡逾期的后果是什么?
天士力:华润三九收购公司28%股份事项获国务院国资委批复
二项分布图形分析:数据洞察与分析中的关键作用
Subo Refugee?“苏北人”在上海究竟是什么梗
探秘二次元角色变身:一场跨次元的形象变革之旅
起底“开盒挂人”,整治新式网暴
担保人资格是什么
将肺功能检查纳入体检“必选项”!
协合运维胥佳:应以长周期视角,理性评估新能源资产价值
暗物质和暗能量是同一种东西吗?
提升工作效率的工作简报撰写技巧与实用建议
线上配镜避雷指南:新配的近视眼镜带着头晕?这份2900字长文帮你避开配镜误区
今年秋冬大衣的30套高阶穿搭,质感高级又时髦
干货:个人征信有异议如何申诉处理,详细的操作流程与技术方法
辅警治安管理:职责与挑战
探秘莲雾的独特风味(从外观、气味到口感,一一揭秘莲雾)
券商的评价指标有哪些?这些评价指标对投资者有什么影响?
收缩膜包装机的膜材对比