线性代数中的正定矩阵与二次型函数:定义、性质与可视化解释
线性代数中的正定矩阵与二次型函数:定义、性质与可视化解释
正定矩阵和二次型函数是线性代数中的重要概念,在机器学习、优化算法等领域有广泛应用。本文将从定义、性质到应用,层层递进,详细解析正定矩阵和二次型函数的相关知识,并配有详细的解析证明过程和可视化图示,帮助读者深入理解这些概念。
正如清华大学张颢老师所说:"如果你不能用可视化的方式看到事情的结果,那么你就很难对这个事情有认知,认知就是直觉,解析的东西可以让你理解,但未必能让你形成直觉,因为他太反直觉了。"
正定矩阵
定义
给定一个大小为 n×n 的实对称矩阵 A ,若对于任意长度为 n 的非零向量 x,有 x^T A x > 0 恒成立,则矩阵 A是一个正定矩阵。
正定矩阵有什么用
给定一个多元二次函数:
[f(x) = \frac{1}{2}x^TAx + b^Tx + c]
写成矩阵的形式:
[f(x) = \frac{1}{2}x^TAx + b^Tx + c]
一个二次函数的一般形式是:
[f(x) = ax^2 + bx + c]
它的一阶导数:
[f'(x) = 2ax + b]
二阶导数:
[f''(x) = 2a]
它的二阶导数就是这个二次型的矩阵A。
可视化:如果A是正定的,那么f(x)就是一个严格的凸函数(如图1),那么f(x)的极小值就是最小值,就是全局的最小值。此时最小化f(x)就等价于解一个线性方程组Ax = -b。在优化算法和机器学习中是一个非常重要的性质,可以避免我们得到的驻点但不是全局最小值的情况,如果A不是正定的,那么f(x)就不是严格的凸函数(如图2、图3)。
图1
图2
图3
正定矩阵的判定
验证定义
此方法在运算过程中可能会涉及到配方换元等,不方便,几乎不采用此方法。
可视化:从定义可知,任意一个向量x经A的变换后,再与x做点积,结果大于0,说明x经过A的变换后它与原x的夹角是小于90°的。这也正好正定矩阵对应名字中“正”的粗略含义,并没有翻折等负的操作。验证特征值都大于0
对于对称矩阵,特征值都大于0与矩阵正定是等价的。证明如下:
(1)A正定,验证特征值都大于0:
取x为特征向量,则Ax = λx,其中λ为特征值,所以x^T A x = x^T λx > 0,即λ > 0
(2)特征值都大于0,验证A正定:
因为A是实对称阵,给A做一个正交相似对角化A = PDP^T,其中P为正交矩阵,D为对角矩阵,D的对角元素为A的特征值,都大于0。
要计算所以特征值比较麻烦,此方法用的少。
可视化:先说明对特征值的理解,正的特征值是这个变换在特征向量方向上的拉伸,并没有翻转。而对称矩阵的特征向量是正交的,在没有翻转的情况下,变换前后的向量不可能夹角大于90°,所以矩阵特征值都大于0时,矩阵就是正定的。验证各阶主子式的行列式都大于0
各阶主子式的行列式都大于0与矩阵正定是等价的。证明如下:
(1)A正定,验证各阶主子式的行列式都大于0
(2)各阶主子式都大于0,验证A正定
可视化:行列式的几何意义是变换前后高维“体积”缩放的倍数,而特征值的几何意义是变换前后在某个方向缩放的倍数,故矩阵的行列式等于矩阵所以特征值的乘积,矩阵的行列式为正,说明矩阵特征值全为正或有偶数个负,但如果矩阵的各阶主子式都大于0,那么矩阵的特征值就全为正的。理由:n维矩阵的n-1阶主子式的特征值为(n-1)个,这(n-1)个特征值为原n维矩阵的n个特征值中的(n-1)个向(n-1)维做投影,其正负属性不变,所以当如果矩阵的各阶主子式都大于0,那么矩阵的特征值就全为正的,矩阵正定。
二次型函数
圆锥曲线判别式
对于二次型函数:
[f(x) = ax^2 + bxy + cy^2]
当 b^2 - 4ac < 0 时,a > 0,c > 0,则矩阵为正定矩阵,二次型函数为正定函数(如图4)
当 b^2 - 4ac > 0 时,a > 0,c > 0,则矩阵为不定矩阵,二次型函数为不定函数(如图5)
当 b^2 - 4ac > 0 时,a < 0,c < 0,则矩阵为不定矩阵,二次型函数为不定函数(如图6)
当 b^2 - 4ac > 0 时,a < 0,c < 0,则矩阵为负定矩阵,二次型函数为负定函数(如图7)
当 b^2 - 4ac = 0 时,则矩阵为半正定矩阵,二次型函数为半正定定函数(如图8)
图4
图5
图6
图7
图8
图4:b^2 - 4ac < 0,a > 0,c > 0,正定,矩阵特征值都为正
图5:b^2 - 4ac > 0,a > 0,c > 0,不定,矩阵特征值一正一负
图6:b^2 - 4ac > 0,a < 0,c < 0,不定,矩阵特征值一正一负
图7:b^2 - 4ac > 0,a < 0,c < 0,负定,矩阵特征值都为负
图8:b^2 - 4ac = 0,半正定,矩阵特征值含0
合同变换,正交变换
对于二次型函数:
[f(x) = x^TAx]
中的矩阵A,当A为对角矩阵时,特征向量为(1,0)和(0,1),特征值为2和4。画出图形为:
当A为非对角矩阵时,特征向量为特定方向的向量,特征值为特定值。逐渐增大或减小b(保持在矩阵为正定矩阵的情况下),画出特征向量所在的直线和二次型函数图形:
b=-2
b=-1
b=1
b=2
可知矩阵特征向量的方向即为二次型函数旋转到的方向。正定矩阵为对称矩阵,对其进行谱分解A = PDP^T,P为特征向量构成的矩阵,D为特征值组成的对角矩阵。则可知二次型函数都是将标准二次型函数旋转-缩放-再旋转变换得来的。