问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

特征值和特征向量:从定义到主成分分析的应用

创作时间:
作者:
@小白创作中心

特征值和特征向量:从定义到主成分分析的应用

引用
CSDN
1.
https://blog.csdn.net/z735640642/article/details/86166572

特征值和特征向量是线性代数中的重要概念,在数据挖掘、机器学习等领域有着广泛的应用。本文将从定义出发,通过几何解释和实际案例,深入浅出地讲解特征值和特征向量的内涵及其在主成分分析(PCA)中的应用。

特征值和特征向量的定义

设A是n阶矩阵,如果数λ和n维非零向量x使关系式
$$
Ax = \lambda x
$$
成立,那么,这样的数λ称为矩阵A的特征值,非零向量x称为A的对应于特征值λ的特征向量。这个关系式还可以写为:
$$
(A - \lambda I)x = 0
$$
其中I是单位矩阵。求解这个方程组,就可以得到矩阵A的特征值和特征向量。

几何解释

要理解特征值和特征向量,首先需要理解矩阵的概念。一个矩阵代表的是一个线性变换规则,而一个矩阵的乘法运行代表的是一个变换。例如,有一个矩阵A:
$$
A = \begin{pmatrix}
a & b \
c & d
\end{pmatrix}
$$
一个列向量X为:
$$
X = \begin{pmatrix}
x_1 \
x_2
\end{pmatrix}
$$
矩阵A对向量X的乘法为:
$$
AX = \begin{pmatrix}
a & b \
c & d
\end{pmatrix}
\begin{pmatrix}
x_1 \
x_2
\end{pmatrix}

\begin{pmatrix}
ax_1 + bx_2 \
cx_1 + dx_2
\end{pmatrix}
$$
向量X通过矩阵A这个变换规则就可以变换为向量Y。

在几何上,这个变换可以理解为向量的旋转和伸缩。例如,一个向量在经过矩阵变换前后的变化可以表示为:

特征值和特征向量的几何意义是:对于矩阵A的特征向量x,经过A的变换后,x的方向不变,只发生伸缩,伸缩的比例就是特征值λ。用《线性代数的几何意义》的话来说:“矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中,原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值。”

特征值和特征向量的应用:主成分分析(PCA)

特征值和特征向量的一个重要应用是在数据挖掘中的主成分分析(PCA)。PCA是一种降维技术,用于减少数据集的维度,同时保留数据的主要信息。

信息量的概念

在理解PCA之前,需要先理解“信息量”的概念。看几张图:

如果我们单独看某一个维度的话,比如看x1这个维度:

  • 图1的数据离散性最高,信息量最大
  • 图3的数据离散性较低
  • 图2的数据离散性最低

数据离散性越大,代表数据在所投影的维度上具有越高的区分度,这个区分度就是信息量。如果我们用方差来形容数据的离散性的话,就是数据方差越大,表示数据的区分度越高,也就是蕴含的信息量是越大的。

PCA的核心思想

基于这个知识,如果我们想对数据进行降维的话,比如图1的两个维度的数据降成一维,我们可以选择保留X1这个维度的数据,因为在这个维度上蕴含的信息量更多。

同理,图2就可以保留x2这个维度的数据。但是,问题来了,图3应该保留哪个维度的数据呢?答案是保留哪个维度都不好,都会丢失较大的信息量。但是,如果我们把图3的坐标轴旋转一下:

比较容易看出,图3在新的坐标轴下就能进行降维了。所以选取正确的坐标轴,然后根据各个维度上的数据方差大小,决定保留哪些维度的数据,这样的做法就是主成分分析的核心思想。

特征值和特征向量的作用

选取正确的坐标轴的过程中,我们需要一个矩阵变换,就类似于这样:

$$
X' = PX
$$

其中P是变换矩阵。经过数学上的推导,我们就可以知道,特征值对应的特征向量就是理想中想取得正确的坐标轴,而特征值就等于数据在旋转之后的坐标上对应维度上的方差。

也就是说,直接求出矩阵A的特征向量得出对应的特征向量。我们就能找到旋转后正确的坐标轴。这个就是特征值和特征向量的一个实际应用:“得出使数据在各个维度区分度达到最大的坐标轴。”

主成分分析的具体步骤

在数据挖掘中,就会直接用特征值来描述对应特征向量方向上包含的信息量,而某一特征值除以所有特征值的和的值就为:该特征向量的方差贡献率(方差贡献率代表了该维度下蕴含的信息量的比例)。

通常经过特征向量变换下的数据被称为变量的主成分,当前m个主成分累计的方差贡献率达到一个较高的百分数(如85%以上)的话,就保留着这m个主成分的数据。实现了对数据进行降维的目的。整个主成分分析的算法原理也就是这个。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号