问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

偏相关系数:一般定义,线性回归和矩阵运算方法

创作时间:
作者:
@小白创作中心

偏相关系数:一般定义,线性回归和矩阵运算方法

引用
CSDN
1.
https://m.blog.csdn.net/lijixuan0725/article/details/143725254

偏相关系数:一般定义,线性回归和矩阵运算方法

偏相关系数是指计算两个向量的相关性,同时控制其他变量对这两个变量的影响。也就是排除其他变量的干扰,更准确地反映出两个变量之间的相关性。

假设有三个变量X,Y,Z,想要计算X和Y的在无Z影响下的偏相关系数$\rho_{XY \cdot Z}$,其定义的公式为:

$$
\rho_{XY \cdot Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}}
$$

其中$r_{XY}$,$r_{XZ}$,$r_{YZ}$分别是不同向量之间的皮尔逊相关系数。该公式通过减去Z对X和Y的影响,从而获得排除了Z的影响后的X和Y的纯粹的相关性。对于排除多个变量(控制变量)的影响的情况,可以使用线性回归或者矩阵运算来计算偏相关系数。

线性回归

对X回归Z:
$$
X = a_1 + a_2 Z + e_1 = \hat{X} + e_1
$$
如果不止一个控制变量:
$$
X = a_1 + a_2 Z_1 + a_3 Z_2 + \cdots + e_1 = \hat{X} + e_1
$$

同理,对Y回归Z:
$$
Y = b_1 + b_2 Z + e_2 = \hat{Y} + e_2
$$
如果不止一个控制变量:
$$
Y = b_1 + b_2 Z_1 + b_3 Z_2 + \cdots + e_2 = \hat{Y} + e_2
$$

所以$e_1$,$e_2$分别代表了X和Y的残差,该残差是指X或Y中减去了其他变量(比如Z)影响后的部分。$e_1 = X - \hat{X}$,$e_2 = Y - \hat{Y}$。再计算$e_1$和$e_2$的相关系数,就得到了X和Y的偏相关系数:
$$
\rho_{e_1, e_2} = \frac{Cov(e_1, e_2)}{\sigma_{e_1} \sigma_{e_2}}
$$

如果从3维角度理解,也就是将X和Y分别投影到垂直Z轴的平面上,得到$r_x$和$r_y$,也算是X和Y的残差$e_1$和$e_2$。$r_x$和$r_y$的夹角$\varphi_{xy}$,其相关系数为$\cos \varphi_{xy}$,也就是得到了X和Y的偏相关系数,如下图所示。

矩阵运算(使用精度矩阵)

对于多变量偏相关系数的计算,矩阵方法尤其有效。假设有n个变量,这些变量的协方差矩阵$\sum$为

对$\sum$求逆矩阵(精度矩阵$\Omega$)$\sum^{-1}$,于是任意两个变量$X_i$,$X_j$的偏相关系数计算为
$$
\rho_{X_i X_j \cdot others} = - \frac{\Omega_{ij}}{\sqrt{\Omega_{ii} \cdot \Omega_{jj}}}
$$

其中$\Omega_{ij}$分别是$\Omega$中的第i行,第j列的元素。这种方法对应着上图的左下角。

参考文献:

  • 偏相关系数
  • 偏相关关系 和 复相关关系 的定义 及 具体的案例

图片来源:

  • Learning Partial Correlation based Deep Visual Representation for Image Classification–2023CVPR
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号