问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

深度学习数学基础1

创作时间:
作者:
@小白创作中心

深度学习数学基础1

引用
CSDN
1.
https://blog.csdn.net/weixin_43775295/article/details/138470640

第一章 数学基础

深度学习通常又需要哪些数学基础?深度学习里的数学到底难在哪里?通常初学者都会有这些问题,在网络推荐及书本推荐里,经常看到会列出一系列数学科目,比如微积分、线性代数、概率论、复变函数、数值计算、优化理论、信息论等等。这些数学知识有相关性,但实际上按照这样的知识范围来学习,学习成本会很久,而且会很枯燥,本章我们通过选举一些数学基础里容易混淆的一些概念做以介绍,帮助大家更好的理清这些易混淆概念之间的关系。

1.1 向量和矩阵

1.1.1 标量、向量、矩阵、张量之间的联系

标量(scalar)

一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。

向量(vector)

一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量X XX的第一个元素是X 1 X_1X1 ,第二个元素是X 2 X_2X2 ,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。

矩阵(matrix)

矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如A AA。

张量(tensor)

在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用 来表示张量“A”。张量A AA中坐标为( i , j , k ) (i,j,k)(i,j,k)的元素记作A ( i , j , k ) A_{(i,j,k)}A(i,j,k) 。

四者之间的关系

标量是0阶张量,向量是一阶张量。举例:

标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。

向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。

张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/右偏转了多少。

1.1.2 张量与矩阵的区别

从代数角度讲, 矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排), 矩阵是二维的“表格”(分量按照纵横位置排列), 那么n nn阶张量就是所谓的n nn维的“表格”。 张量的严格定义是利用线性映射来描述。

从几何角度讲, 矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。

张量可以用3×3矩阵形式来表达。

表示标量的数和表示向量的三维数组也可分别看作1×1,1×3的矩阵。

1.1.3 矩阵和向量相乘结果

若使用爱因斯坦求和约定(Einstein summation convention),矩阵A AA, 相乘得到矩阵C CC可以用下式表示:a i k ∗ b k j = c i j (1.3-1) a_{ik}*b_{kj}=c_{ij} \tag{1.3-1}aik ∗bkj =cij (1.3-1)其中,a i k a_{ik}aik , , 分别表示矩阵A , B , C A, B, CA,B,C的元素,k kk出现两次,是一个哑变量(Dummy Variables)表示对该参数进行遍历求和。 而矩阵和向量相乘可以看成是矩阵相乘的一个特殊情况,例如:矩阵B BB是一个n × 1 n \times 1n×1的矩阵。

1.1.4 向量和矩阵的范数归纳

向量的范数(norm)

定义一个向量为:a ⃗ = [ − 5 , 6 , 8 , − 10 ] \vec{a}=[-5, 6, 8, -10]a=[−5,6,8,−10]。任意一组向量设为x ⃗ = ( x 1 , x 2 , . . . , x N ) \vec{x}=(x_1,x_2,...,x_N)x=(x1 ,x2 ,...,xN )。其不同范数求解如下:

  • 向量的1范数:向量的各个元素的绝对值之和,上述向量a ⃗ \vec{a}a的1范数结果就是:29。

  • 向量的2范数:向量的每个元素的平方和再开平方根,上述a ⃗ \vec{a}a的2范数结果就是:15。

  • 向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量a ⃗ \vec{a}a的负无穷范数结果就是:5。

  • 向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量a ⃗ \vec{a}a的正无穷范数结果就是:10。

  • 向量的p范数:

矩阵的范数

定义一个矩阵A = [ − 1 , 2 , − 3 ; 4 , − 6 , 6 ] A=[-1, 2, -3; 4, -6, 6]A=[−1,2,−3;4,−6,6]。 任意矩阵定义为:A m × n A_{m\times n}Am×n ,其元素为 。

矩阵的范数定义为

当向量取不同范数时, 相应得到了不同的矩阵范数。

  • 矩阵的1范数(列范数):矩阵的每一列上的元
    素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵A AA的1范数先得到[ 5 , 8 , 9 ] [5,8,9][5,8,9],再取最大的最终结果就是:9。∥ A ∥ 1 = max ⁡ 1 ≤ j ≤ n ∑ i = 1 m ∣ a i j ∣ \Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|∥A∥1 =1≤j≤nmax i=1∑m ∣aij ∣

矩阵的2范数:矩阵A T A A^TAATA的最大特征值开平方根,上述矩阵A AA的2范数得到的最终结果是:10.0623。

其中, 为根式中内容为A T A A^TAATA的特征值绝对值的最大值。

  • 矩阵的无穷范数(行范数):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵A AA的行范数先得到[ 6 ; 16 ] [6;16][6;16],再取最大的最终结果就是:16。∥ A ∥ ∞ = max ⁡ 1 ≤ i ≤ m ∑ j = 1 n ∣ a i j ∣ \Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|∥A∥∞ =1≤i≤mmax j=1∑n ∣aij ∣

  • 矩阵的核范数:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A最终结果就是:10.9287。

  • 矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏,上述矩阵A AA最终结果就是:6。

  • 矩阵的L1范数:矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀疏,上述矩阵A AA最终结果就是:22。

  • 矩阵的F范数:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的优点在于它是一个凸函数,可以求导求解,易于计算,上述矩阵A最终结果就是:10.0995。

  • 矩阵的L21范数:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数,上述矩阵A AA最终结果就是:17.1559。

  • 矩阵的 p范数

1.1.5 如何判断一个矩阵为正定

判定一个矩阵是否为正定,通常有以下几个方面:

  • 顺序主子式全大于0;

  • 顺序主子式全大于0;

  • 存在可逆矩阵C CC使C T C C^TCCTC等于该矩阵;

  • 正惯性指数等于n nn;

  • 合同于单位矩阵E EE(即:规范形为E EE)

  • 标准形中主对角元素全为正;

  • 特征值全为正;

  • 是某基的度量矩阵。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号