线性代数中的几何直观:基变换、特征向量与对角矩阵
线性代数中的几何直观:基变换、特征向量与对角矩阵
线性代数是理工科学生必修的基础课程,但其中的许多抽象概念往往让初学者感到困惑。本文作为"线性代数中的几何直观"系列文章的第五篇,将通过直观的几何解释,帮助读者深入理解基变换、特征向量、特征值与对角矩阵等核心概念。
基变换
为了便于理解,前面我们提到的线性变换在没有强调的时候基向量都默认为沿着x、y轴正方向的单位向量,但是如果我们选择其他的一组向量作为基向量时,该如何描述线性变换呢?
假设我们选择了v和w作为一组新的基向量,之前我们讲过,这组基向量排列组成的矩阵可以理解为从原基向量[1,0]、[0,1]到新的基向量特定的线性变换,于是我们在原基向量空间表示的向量可以通过这一特定的线性变换转换成v、w表示的线性组合。通俗来讲这个线性变换就像是一个翻译,把原基向量的线性组合翻译成了v、w的线性组合。正如前面提到过,同时也存在一个逆变换把v、w的线性组合变换为原基向量的线性组合。
如果现在有一个矩阵A使得原基向量空间表示的向量进行了特定的线性变换,那么这个变化在v、w的空间是如何描述的呢?此时我们不能把线性变换A直接作用在v、w表示的向量上。这时就需要一个从v、w基向量到原基向量的“翻译矩阵”(又称基变换矩阵)P,先将v、w基向量空间的向量乘以“翻译矩阵”P变成原基向量空间的向量,这时候就可以应用线性变换A,最后再乘以“翻译矩阵”P的逆矩阵转换为v、w基向量空间的向量,用数字符号表示是这样的:
。用以上方法我们就可以把一个基向量空间的线性变换应用到另一个基向量空间的向量了(其中从v、w基向量到原基向量的“翻译矩阵”P就是新坐标系中的基向量v、w构成的矩阵。这里“翻译”的方向容易弄反)。
特征向量、特征值与对角矩阵
你有没有想过,特征值和特征向量到底是什么,他为什么称之为“特征”?下面我们从几何中理解他们的含义。
以二维平面为例,我们任选一个向量,经过一个线性变换大概率向量会偏离原来的方向,也有可能还在原来所在的那条直线上,如果向量依然在原来那条直线上,那么称之为特征向量,该向量变换前后值的变化率成为特征值。这是在几何上的描述,那么他有什么作用呢?我们来到三维空间中,假设有一个立方体,有一个线性变换作用其中并且我们找到了一个特征向量。因为特征向量线性变换前后不会偏离原来所在的直线,思考一下这条向量所在的直线是什么,其实就是立方体的旋转轴。特征向量在几何中非常有用,使立方体在空间中旋转的线性变换矩阵直接看非常复杂,难以理解其中的作用,如果计算出他的特征向量与特征值,则可以轻松获得这个立方体的旋转轴与在这个轴上的缩放大小。值得强调的是,某些线性变换不存在特征向量,比如二维平面中绕原点旋转,每个向量都偏离了原来的方向。
我们回到定义Av = λv,他的意义不就是求一个向量经过线性变换A等于它本身乘以一个常数吗?公式经过变形得到( A - λE ) v = 0,如果向量v等于零向量满足等式,但是零向量没有什么意义,我们关注的是非零向量。由前面讲过的一个线性变换将空间压缩到更低维度时,存在非零向量使得矩阵与它的乘积为零向量,此时矩阵的行列式为零。我们不断变换λ找到使| A - λE |= 0,此时的λ就是A的特征值,向量v就是A的一个特征向量,在它所在的直线上的向量变化前后方向不变。
如果基向量恰好是特征向量会发生什么?假设平面内有基向量i[1,0]、j[0,1],经过线性变换使得i变为[-1,0]、j变为[0,2],将他们作为矩阵的列,这时就会发现矩阵是一个对角矩阵,对角矩阵在计算高次幂的时候非常方便。
但是大概率特征向量不是基向量,那该如何处理高次幂的计算呢,这就用到了上面刚刚说的“基变换”。假设存在线性变换矩阵A,如果矩阵A的特征向量可以张成整个空间,那么它就可以通过基变换变为对角矩阵,变换前后矩阵A与
代表的是同一种线性变换,只不过是在不同的基向量的角度看的。以上的过程就是常说的对角化,变为对角矩阵后,每一列都是空间的特征向量,对角元都是对应的特征值。(一组基向量构成的集合被称为一组“特征基”)
ps:几何视角直观理解线性代数的本质到这里算是结束了,后续看时间可能会补充最后一节对于线性代数更抽象、上升到数学学科的总结(看完真的让我茅塞顿开)。