线性代数基础:从线性空间到线性回归
线性代数基础:从线性空间到线性回归
线性代数是数学的一个重要分支,广泛应用于科学和工程领域。本文将从线性空间与基、线性映射与矩阵以及线性回归等方面,系统地介绍线性代数的基础概念和理论。
1.线性空间与基
线性空间亦称向量空间。我们用的线性空间通常为实系数线性空间。
实系数线性空间是一个由向量组成的集合,向量之间可以做加减法,向量与实数之间可以做乘法,而且这些加,减,乘运算要求满足常见的交换律和结合律。我们也可以类似地定义其他系数的线性空间。
⚠️线性空间必须要有原点。例如一个有原点的平面就是一个线性空间(有了原点才能定义向量及其运算)。
‼️基是线性空间里的一组线性无关向量,使得任何一个向量都可以唯一的表示成这组基的线性组合。基给出了定量描述线性结构的方法:坐标系。坐标即为基的系数。
所以基是不唯一的,基的选择取决于要解决的问题。没有十全十美的基,只有适合解决问题的基。
2.线性映射与矩阵
👉线性映射是从一个向量空间V到另一个向量空间W的映射且保持加法运算和数量乘法运算。线性映射的本质就是保持线性结构的映射。
👉线性变换是线性空间V到其自身的线性映射。
有的地方将线性映射和线性变换视为同义词,参考:线性映射。【数学基础】系列博客倾向于将其视为同义词,不再区分。
👉线性映射的矩阵描述:
V,W分别为n,m维的线性空间,α = { α 1 , . . . , α n } , β = { β 1 , . . . , β m } \alpha={ \alpha_1 , ... , \alpha_n },\beta={ \beta_1 , ... , \beta_m }α={α1 ,...,αn },β={β1 ,...,βm }分别为V,W的一组基。T : V → W T:V \to WT:V→W是一个线性映射。于是T , α , β T,\alpha,\betaT,α,β唯一决定一个矩阵A α , β ( T ) = [ A i j ] m × n A_{\alpha,\beta}(T)=[A_{ij}]{m\times n}Aα,β (T)=[Aij ]m×n ,使得:
T ( α j ) = ∑ i = 1 m A i j ∗ β i , ∀ j ∈ 1 , . . . , n (1) T(\alpha_j)=\sum^m{i=1} A_{ij} * \beta_i , \forall j \in 1,...,n \tag{1}T(αj )=i=1∑m Aij ∗βi ,∀j∈1,...,n(1)
式(1)等价于:
T ( α 1 , . . . , α n ) = ( β 1 , . . . , β m ) ⋅ A α , β ( T ) (2) T(\alpha_1,...,\alpha_n)=(\beta_1,...,\beta_m) \cdot A_{\alpha,\beta}(T) \tag{2}T(α1 ,...,αn )=(β1 ,...,βm )⋅Aα,β (T)(2)
简记为:
T ( α ) = β ⋅ A α , β ( T ) (3) T(\alpha)=\beta \cdot A_{\alpha,\beta}(T) \tag{3}T(α)=β⋅Aα,β (T)(3)
👉举个例子,假设我们现在有线性空间V,基为{ α 1 , α 2 } { \alpha_1,\alpha_2 }{α1 ,α2 }。我们将其逆时针旋转θ \thetaθ得到新的线性空间W,基为{ β 1 , β 2 } { \beta_1,\beta_2 }{β1 ,β2 }(假设基都为单位向量)。那么该如何描述这个旋转映射呢?
T ( β 1 ) = α 1 cos θ + α 2 sin θ = ( α 1 , α 2 ) [ cos θ sin θ ] T(\beta_1)=\alpha_1 \cos \theta + \alpha_2 \sin \theta = (\alpha_1 , \alpha_2 ) \begin{bmatrix} \cos \theta \ \sin \theta \ \end{bmatrix}T(β1 )=α1 cosθ+α2 sinθ=(α1 ,α2 )[cosθsinθ ]
T ( β 2 ) = − α 1 sin θ + α 2 cos θ = ( α 1 , α 2 ) [ − sin θ cos θ ] T(\beta_2)=-\alpha_1 \sin \theta + \alpha_2 \cos \theta = (\alpha_1 , \alpha_2 ) \begin{bmatrix} -\sin \theta \ \cos \theta \ \end{bmatrix}T(β2 )=−α1 sinθ+α2 cosθ=(α1 ,α2 )[−sinθcosθ ]
T ( β 1 , β 2 ) = ( α 1 , α 2 ) [ cos θ − sin θ sin θ cos θ ] (4) T(\beta_1,\beta_2)=(\alpha_1,\alpha_2) \begin{bmatrix} \cos \theta & -\sin \theta \ \sin \theta & \cos \theta \end{bmatrix} \tag{4}T(β1 ,β2 )=(α1 ,α2 )cosθsinθ −sinθcosθ
式(4)中的矩阵就是用来描述这个线性映射的。
👉再举另外一个例子,如果我们要将三维空间(基为{ α 1 , α 2 , α 3 } { \alpha_1 , \alpha_2 , \alpha_3 }{α1 ,α2 ,α3 })线性映射到二维空间(基为{ β 1 , β 2 } { \beta_1,\beta_2 }{β1 ,β2 }),假设有:
- T ( α 1 ) = β 1 T(\alpha_1)=\beta_1T(α1 )=β1
- T ( α 2 ) = β 2 T(\alpha_2)=\beta_2T(α2 )=β2
- T ( α 3 ) = β 1 + β 2 T(\alpha_3)=\beta_1+\beta_2T(α3 )=β1 +β2
则:
T ( α 1 , α 2 , α 3 ) = ( β 1 , β 2 ) [ 1 0 1 0 1 1 ] T(\alpha_1,\alpha_2,\alpha_3)=(\beta_1,\beta_2) \begin{bmatrix} 1 & 0 & 1 \ 0 & 1 & 1 \ \end{bmatrix}T(α1 ,α2 ,α3 )=(β1 ,β2 )[10 01 11 ]
👉如果我们选取V,W的另外一组基,α ~ = α ⋅ P , β ~ = β ⋅ Q \widetilde{\alpha}=\alpha \cdot P,\widetilde{\beta}=\beta \cdot Qα=α⋅P,β =β⋅Q,那么存在矩阵A α ~ , β ~ ( T ) A_{\widetilde{\alpha},\widetilde{\beta}}(T)Aα,β (T)使得,
T ( α ~ ) = β ~ ⋅ A α ~ , β ~ ( T ) T(\widetilde{\alpha})=\widetilde{\beta} \cdot A_{\widetilde{\alpha},\widetilde{\beta}}(T)T(α)=β ⋅Aα,β (T)
P,Q为基的变换矩阵。
例如有:
α 1 ~ = α 1 + 2 α 2 \widetilde{\alpha_1}=\alpha_1+2\alpha_2α1 =α1 +2α2
α 2 ~ = 3 α 1 + 4 α 2 \widetilde{\alpha_2}=3\alpha_1+4\alpha_2α2 =3α1 +4α2
则:
( α 1 ~ , α 2 ~ ) = [ α 1 , α 2 ] [ 1 3 2 4 ] (\widetilde{\alpha_1},\widetilde{\alpha_2})=[\alpha_1,\alpha_2] \begin{bmatrix} 1 & 3 \ 2 & 4 \ \end{bmatrix}(α1 ,α2 )=[α1 ,α2 ][12 34 ]
[ 1 3 2 4 ] \begin{bmatrix} 1 & 3 \ 2 & 4 \ \end{bmatrix}[12 34 ]
即为基的变换矩阵。
两边分别代入α ~ \widetilde{\alpha}α和β ~ \widetilde{\beta}β 得到,
T ( α ) ⋅ P = T ( α ⋅ P ) = β ⋅ Q ⋅ A α ~ , β ~ ( T ) T(\alpha) \cdot P = T(\alpha \cdot P)=\beta \cdot Q \cdot A_{\widetilde{\alpha},\widetilde{\beta}}(T)T(α)⋅P=T(α⋅P)=β⋅Q⋅Aα,β (T)
与式(3)比较我们得到矩阵变换公式:
Q ⋅ A α ~ , β ~ ( T ) ⋅ P − 1 = A α , β ( T ) (5) Q \cdot A_{\widetilde{\alpha},\widetilde{\beta}}(T) \cdot P^{-1}=A_{\alpha,\beta}(T) \tag{5}Q⋅Aα,β (T)⋅P−1=Aα,β (T)(5)
3.线性回归
线性回归模型:
X ⋅ β = Y (6) X \cdot \beta =Y \tag{6}X⋅β=Y(6)
👉代数解法:
一般来讲,样本个数大于自变量参数个数。所以方程个数大于这个方程的未知数个数,于是方程通常是没有解,长方形矩阵也一定没有逆矩阵。但是如果X T X X^T XXTX是可逆矩阵(一般是满足的),那么代数上可以用如下方法求一个近似的解答:
X T X ⋅ β = X T Y X^T X \cdot \beta = X^T YXTX⋅β=XTY
β = ( X T X ) − 1 X T Y (7) \beta = (X^T X) ^ {-1} X^T Y \tag{7}β=(XTX)−1XTY(7)
所以如若式(6)有解,就一定是式(7)。而如果式(6)没有解,式(7)也是一个合理的估计。
👉最小二乘法:【机器学习基础】第六课:线性回归。
[ A B C D ] − 1 = 1 A D − B C [ D − B − C A ] \begin{bmatrix} A & B \ C & D \ \end{bmatrix} ^ {-1} = \frac{1}{AD-BC} \begin{bmatrix} D & -B \ -C & A \ \end{bmatrix}[AC BD ]−1=AD−BC1 [D−C −BA ]
4.参考资料
- 线性变换(百度百科)