资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

特征工程——相关性分析（皮尔逊和斯皮尔曼）

创作时间:

作者:

@小白创作中心

特征工程——相关性分析（皮尔逊和斯皮尔曼）

引用

CSDN

https://blog.csdn.net/weixin_52040570/article/details/139953837

相关性分析是特征工程中一个重要的环节，它帮助我们理解特征之间的关系，从而选择最相关的特征用于模型训练。本文将详细介绍两种常用的相关性系数：皮尔逊相关系数和斯皮尔曼相关系数，包括它们的实现原理、计算方法以及在机器学习中的具体应用。

1. 皮尔逊相关系数

实现原理

皮尔逊相关系数是用来衡量两个变量之间线性相关程度的统计量，记作 (r)，其取值范围为 ([-1, 1])。公式如下：

[ r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}} ]

其中：

(x_i) 和 (y_i) 是两个变量的观测值
(\bar{x}) 和 (\bar{y}) 是两个变量的均值

取值范围：

(r = 1)：完全正相关，两个变量完全线性相关，且方向相同。
(r = -1)：完全负相关，两个变量完全线性相关，但方向相反。
(r = 0)：不相关，两个变量没有线性关系。

计算过程：

计算变量 (x) 和 (y) 的均值 (\bar{x}) 和 (\bar{y})。
对每对观测值 ((x_i, y_i)) 计算各自与均值的差 ((x_i - \bar{x})) 和 ((y_i - \bar{y}))。
计算这些差值的乘积之和，即 (\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}))。
分别计算这些差值的平方和，即 (\sum_{i=1}^{n}(x_i - \bar{x})^2) 和 (\sum_{i=1}^{n}(y_i - \bar{y})^2)。
最后：（步骤 3 的结果）除以（步骤 4 的结果的平方根）。

数据集
假设我们有以下数据集：
特征 a: [1, 2, 3, 4, 6, 10]
特征 b: [89, 100, 119, 150, 188, 200]

代码实现

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 数据集(有线性关系)
data = {
    'a':[1, 2, 3, 4, 6, 10],
    'b':[89, 100, 119, 150, 188, 200]
}

# 创建DataFrame
df = pd.DataFrame(data)

# 计算皮尔逊相关系数矩阵
corr_matrix = df.corr(method='pearson')

# 打印相关系数矩阵
print("皮尔逊相关系数矩阵:")
print(corr_matrix)

# 绘制热力图
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix Heatmap')
plt.show()

运行结果
特征 a 和 b：相关系数为 0.94，表示两者之间存在较强的正相关关系。

适用范围

线性关系：皮尔逊相关系数仅适用于测量两个变量之间的线性关系。如果两个变量之间存在非线性关系，皮尔逊相关系数可能无法准确反映其相关性。
连续变量：皮尔逊相关系数适用于连续型数据（如测量值、比率等），不适用于分类数据或秩次数据。
正态分布：理想情况下，变量应当服从正态分布，或者至少满足对称分布。
无异常值：皮尔逊相关系数对异常值非常敏感，异常值可能会显著影响相关系数的大小和方向。

2. 斯皮尔曼相关系数

秩次
假设我们有一组数据，秩次就是将这些数据按大小顺序排列，并赋予每个数据点一个唯一的排序位置（即排名）。例如，如果我们有一组数据 [3,1,4,1,5]，对其进行排序后得到 [1,1,3,4,5]，其秩次就为 [2.5,2.5,1,3,4]。为什么存在2.5呢？如果有相同的值（称为“平秩”），则这些值的秩次是它们排序位置的平均值。

实现原理
斯皮尔曼相关系数是衡量两个变量排序后之间相关程度的非参数统计量，记作 (\rho)，其取值范围为 ([-1, 1])。公式如下：

[ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} ]

其中：

(d_i) 是每对数据点的秩次差，即 (d_i = R(x_i) - R(y_i))。
(n) 是观测值的数量。

取值范围：

(\rho = 1)：完全正相关，两个变量的排序完全一致。
(\rho = -1)：完全负相关，两个变量的排序完全相反。
(\rho = 0)：不相关，两个变量的排序无关。

计算过程
假设我们有以下数据集：

Variable1	Variable2
86	92
97	98
85	96
92	91
99	100

排序并赋秩次：

Variable1	Variable2	Rank1	Rank2
86	92	2	2
97	98	4	4
85	96	1	3
92	91	3	1
99	100	5	5

计算秩次差：

Variable1	Variable2	Rank1	Rank2	Difference	Difference^2
86	92	2	2	0	0
97	98	4	4	0	0
85	96	1	3	-2	4
92	91	3	1	2	4
99	100	5	5	0	0

计算差的平方和：
[ \sum d_i^2 = 0 + 0 + 4 + 4 + 0 = 8 ]
代入公式：
[ \rho = 1 - \frac{6 \times 8}{5(5^2 - 1)} = 1 - \frac{48}{120} = 0.6 ]

即斯皮尔曼相关系数为 0.6。

代码实现

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import spearmanr

# 生成示例数据
np.random.seed(0)
data = {
    'Variable1': np.random.randint(1, 100, 50),
    'Variable2': np.random.randint(1, 100, 50),
    'Variable3': np.random.randint(1, 100, 50),
    'Variable4': np.random.randint(1, 100, 50),
    'Variable5': np.random.randint(1, 100, 50)
}

# 将数据转换为 DataFrame
df = pd.DataFrame(data)

# 计算斯皮尔曼相关系数矩阵
corr_matrix = df.corr(method='spearman')

# 创建热力图
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0, vmin=-1, vmax=1)
plt.title("Spearman Rank Correlation Heatmap")
plt.show()

适用范围

单调关系：斯皮尔曼秩相关系数适用于测量两个变量之间的单调关系，无论这种关系是线性还是非线性。只要一个变量增加（或减少），另一个变量也相应增加（或减少），斯皮尔曼秩相关系数就可以有效地衡量这种关系。
连续或离散变量：斯皮尔曼秩相关系数适用于连续型数据和秩次数据（如等级、排名）。
非正态分布：斯皮尔曼秩相关系数不要求数据服从正态分布，因此适用于数据分布不明或非正态分布的情况。
对异常值不敏感：由于斯皮尔曼秩相关系数基于秩次而非具体数值，它对异常值不太敏感。