资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

数据科学家必备：高效特征选择技巧

创作时间:

作者:

@小白创作中心

数据科学家必备：高效特征选择技巧

引用

知乎

等

来源

https://zhuanlan.zhihu.com/p/74198735

https://blog.csdn.net/m0_52118763/article/details/122608942

https://blog.csdn.net/qq_42722197/article/details/140924945

https://blog.csdn.net/Datawhale/article/details/120582526

https://blog.csdn.net/deephub/article/details/127961399

https://blog.csdn.net/xyaixy/article/details/144394020

https://cloud.tencent.com/developer/article/2407238

https://cloud.tencent.com/developer/article/1519016

https://www.x-mol.com/paper/1815548036327739392/t?adv

10.

https://bigquant.com/wiki/doc/mEofOLtp34

在数据科学领域，特征选择是提高模型性能的关键步骤。本文将介绍10个高效的特征选择技巧，帮助数据科学家更有效地进行特征选择，避免过拟合和欠拟合，提升模型泛化能力。这些技巧包括相关性分析、信息增益、递归特征选择（RFE）、支持向量机（SVM）、决策树、随机森林、主成分分析（PCA）等方法。通过学习这些技巧，数据科学家可以更好地处理大量数据，为后续的数据分析和模型构建打下坚实基础。

特征选择的重要性

在数据科学项目中，特征选择是一个至关重要的环节。它不仅能够帮助我们剔除无关或冗余的特征，减少特征数量，降低计算复杂度，还能提高模型的可解释性，避免过拟合，提升模型精度。特征选择的主要目标是寻找最优特征子集，从而达到减少特征个数、提高模型精确度、减少运行时间的目的。

特征选择的基础知识

特征选择的方法主要分为三大类：过滤法（Filter）、包装法（Wrapper）和嵌入法（Embedded）。

过滤法：根据特征的个体特性和与目标变量的相关性对特征进行排序，而不考虑任何具体的学习算法。常见的过滤方法包括单变量统计测试、方差过滤和互信息分数。
包装法：依赖于具体算法，涉及迭代地对特征子集重新训练机器学习算法，以确定产生最佳性能的子集。这包括贪婪的顺序算法、递归特征消除以及进化算法。
嵌入法：将特征选择任务融入到训练过程中，允许模型在训练时学习哪些特征最相关。Lasso回归、随机森林特征重要性等都属于嵌入法。

特征选择的一般流程包括：

生成子集：搜索特征子集，为评价函数提供特征子集
评价函数：评价特征子集的好坏
停止准则：与评价函数相关，一般是阈值，评价函数达到一定标准后就可停止搜索
验证过程：在验证数据集上验证选出来的特征子集的有效性

具体特征选择方法

1. 相关性分析

相关性分析是一种基于过滤器的方法，通过计算特征与目标变量之间的相关系数来选择特征。最常用的是皮尔逊相关系数，其取值范围为[-1,1]，值越接近1或-1表示相关性越强，值接近0表示相关性较弱。

import numpy as np
from scipy.stats import pearsonr

np.random.seed(0)
size = 300
x = np.random.normal(0, 1, size)
print("Lower noise：", pearsonr(x, x + np.random.normal(0, 1, size)))
print("Higher noise：", pearsonr(x, x + np.random.normal(0, 10, size)))

需要注意的是，皮尔逊相关系数只对线性关系敏感，对于非线性关系可能无法准确反映。

2. 卡方检验

卡方检验主要用于评估类别型变量对类别型变量的相关性。通过计算观测值与期望值之间的差异，来判断特征与目标变量之间的独立性。

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

iris = load_iris()
X, y = iris.data, iris.target
X_new = SelectKBest(chi2, k=2).fit_transform(X, y)

3. 互信息

互信息也是一种评估类别型变量之间相关性的方法，能够捕捉非线性关系。互信息越大，表示两个变量之间的相关性越强。

4. 递归特征消除（RFE）

递归特征消除是一种包装法，通过递归地移除最不重要的特征来选择特征。它通常与基模型（如SVM或随机森林）结合使用。

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
rfe = RFE(model, n_features_to_select=3)
fit = rfe.fit(X, y)

5. Lasso回归

Lasso回归是一种嵌入式特征选择方法，通过L1正则化来鼓励稀疏性，从而自动选择特征。

from sklearn.linear_model import LassoCV

lasso = LassoCV(cv=5)
lasso.fit(X, y)

6. 随机森林特征重要性

随机森林在训练过程中会计算特征重要性，可以用来进行特征选择。

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier()
rf.fit(X, y)
importances = rf.feature_importances_

7. 主成分分析（PCA）

PCA是一种降维技术，可以将原始特征转换为一组新的正交特征（主成分），从而实现特征选择。

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

8. 深度学习中的特征选择

在深度学习领域，Deep Lasso是一种新型的特征选择方法，通过在深度神经网络中应用Group Lasso正则化来鼓励特征的梯度稀疏性。

9. 前向/后向选择

前向选择是从空集开始，逐步添加最有价值的特征；后向选择则是从全集开始，逐步移除最不重要的特征。

10. 特征重要性评分

基于模型的特征重要性评分，如XGBoost、LightGBM等模型提供的特征重要性，也是特征选择的重要工具。

特征选择实战

在实际应用中，特征选择通常需要结合数据预处理和模型性能评估。以下是一个基于信用卡逾期预测的特征选择示例：

import pandas as pd
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

# 数据加载
df = pd.read_csv('credit_card_default.csv')

# 划分特征和目标变量
X = df.iloc[:, :-1]
y = df.iloc[:, -1]

# 基于皮尔逊相关系数的特征选择
pearson = df.corr()
index = pearson['default payment next month'][:-1].abs() > 0.1
X_subset = X.loc[:, index]

# 特征选择前后的模型性能比较
print("Before feature selection:", cross_val_score(LogisticRegression(), X, y, cv=5).mean())
print("After feature selection:", cross_val_score(LogisticRegression(), X_subset, y, cv=5).mean())