问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

从矩阵运算到贝叶斯定理:AI必备数学知识全解析

创作时间:
2025-01-21 18:17:02
作者:
@小白创作中心

从矩阵运算到贝叶斯定理:AI必备数学知识全解析

人工智能(Artificial Intelligence,简称AI)正在以惊人的速度改变着我们的生活。然而,要实现智能的机器,离不开数学的支持。在模型构建过程中,我们经常设计各种概念,例如维数灾难、正则化、二进制、多分类、有序回归等。神经元是深度学习的基本单位,该结构完全基于数学概念,即输入和权重的乘积和。至于Sigmoid、ReLU等等激活函数也依赖于数学原理。正确理解机器学习和深度学习的概念,掌握以下数学领域至关重要:线性代数、微积分、矩阵分解、概率论、解析几何等。

1 线性代数 (Linear Algebra)

线性代数是人工智能的数学基础之一,它涉及向量、矩阵、线性变换等概念。在机器学习和深度学习中,线性代数被广泛应用于数据处理、特征提取和模型训练方面。

通过线性代数,我们可以实现以下机器学习或深度学习方法:

  • 推导回归方程
  • 通过线性方程预测目标值
  • 支持向量机SVM
  • 降维
  • 均方差或损失函数
  • 正则化
  • 协方差矩阵
  • 卷积等

1.1 矩阵

矩阵是线性代数的重要概念。一个mn矩阵包含mn 个元素,可用于线性方程组或线性映射的计算,也可将其视为一个mn个实值元素组成的元组。

1.2 向量

在线性代数中,向量是大小为n*1的矩阵,即只有一列

1.3 矩阵乘法

矩阵乘法是行和列的点积,其中一个矩阵的行与另一个矩阵列相乘并求和。

1.4 转置矩阵

对于矩阵A∈R^m* n 有矩阵B∈R^n*m满足b_ij = a_ji,称为A的转置,即B=A^T

1.5 逆矩阵

对n阶矩阵A,有矩阵B∈R^n*n满足AB =I_n(单位矩阵)= BA的性质,称B为A的逆,表示为A^-1。矩阵A和B
A和B相乘
A、B互为逆矩阵(得到单位矩阵)

1.6 正交矩阵

当且仅当矩阵列向量组是单位正交向量组时,n阶矩阵A∈R^n*n是正交矩阵,有:
正交矩阵
矩阵A及其转置
矩阵A及其转置的乘积

1.7 对角矩阵

在n阶矩阵A∈R^n*n中,除主对角线上的元素,其他所有元素均为零,称其为对角矩阵,即:Aij =0,i != j

2 微积分

微积分是概数统计基础,概数统计则是DM&ML之必修课。

2.1 积分

2.1.1 阿基米德穷竭法

如下图,如何求一条曲线与直线BC所围成弓形的面积

阿基米德用的穷竭法:

画一个蓝色的大三角形ABC(过A点的切线与直线BC平行)

则 S = S▲ABC + 剩余两个小弓形的面积,那如何求这两个小弓形的面积,则按照第一步的方法继续创造两个绿色小三角形。

发现两个绿色三角形的面积之和刚好等于一个蓝色三角形的面积的1/4

再之后又用4个黄色三角形去填充剩余的弓形。发现4个黄色三角形的面积之和刚好是2个绿色三角形的1/4,相当于1个蓝色三角形面积的1/16,也就是

该过程无限延续下去

阿基米德计算了几项,直觉告诉他这个结果不断逼近
,也就是三角形越多,面积越接近

于是阿基米德猜想:如果我把无穷多个三角形的面积都加起来,这个结果应该刚好等于。

2.1.2 积分概念

穷竭法可以精确地算出一些曲线围成的面积,但是对于不同的曲线围成的面积使用不同的图形去逼近。比如上面使用的是三角形,在其他地方可能用其他图形。不同图形证明技巧不同。于是到了一千年后的十七世纪,大家就统一使用矩形来逼近:不管你是什么曲线围成的图形,都用矩形来逼近。而且沿着X轴做切割,如下图,求y=的图像在0到1之间与x轴围成的面积。

1.用无数多个矩形来逼近原图形,假设0到1之间被分成了n份,那么每一份的宽度是1/n,那么每一个矩形对应的横坐标则为1/n 、2/n、3/n ,而矩形的高度就是函数y=的值即纵坐标的值。

于是,所有矩形的面积之和S就可以写成这样:

如果n无穷大,则S=1/3。

所以积分这个词造出来了,表示“由无数个无穷小的面积组成的面积S”,比如,如果一条曲线y=f(x)和x轴在a和b之间围成的面积S。即

2.2 导数

设有定义域和取值都在实数域中的函数y=f(x)

1、若f(x)在点
的某个邻域内有定义,则当自变量x在
处取得增量
(点+仍在该邻域内)时,相应地函数y取得增量

2、如果

之比当
时的极限存在,则称函数y=f(x)在点
处可导,并称这个极限为函数
在点处的导数,记为

3、即

也可记为

由于导数的定义中用到了极限的定义,什么是极限呢?

设函数f(x)在点
的某一去心邻域内有定义

如果存在常数A,对于任意给定的正数
(不论它多么小),总存在正数d,使得当x满足不等式
时,对应的函数值f(x)都满足不等式
, 那么常数A就叫做函数f(x),在
时的极限,记为

换言之
, 等价于
,当

有了导数,我们就能轻而易举地求一条曲线的极值(极大值或极小值)。因为只要导数不为0,曲线在这里就是在上升(大于0)或者下降(小于0)的,只有导数等于0的地方,才有可能是一个极值点。

2.3 微分

2.3.1 速度位移公式

速度位移公式为
当物体做匀速运动的轨迹就是一条平行于t轴的直线,速度乘以时间刚好就是它们围成的矩形的面积s,而速度乘以时间的物理意义就是它的位移。所以面积代表位移。

当物体不是做匀速运动(轨迹是曲线)的时候,可以把时间切割成很多小段,在每一小段里把它们近似当作匀速运动,这样每一小段的面积就代表每一个小段里的位移。

然后再把所有小段的面积加起来,得到的总面积代表总位移,即曲线
在t轴

之间围起来的黄色图形的面积s一样代表位移

反过来,对曲线在
时刻求导,是不是
时刻的瞬时速度

也就是说我们对速度v做一次积分能得到位移s,而对位移s求一次导数(微分)就能得到速度v,相当于积分和微分是一种互逆运算关系:

此举意味着当我们求某个函数比如
的面积时,当通过
积分不太好求时,我们可以计算
的原函数
,因为原函数就是位移公式,本身就是面积。

2.3.2 微分概念

设函数
在某区间内有定义

2.3.3 牛顿-莱布尼茨公式

通过原函数反向求定积分:牛顿-莱布尼茨公式

如果函数F(x)是连续函数f(x)在区间[a, b]上的一个原函数,则
此公式也称为微积分基本定理。此公式由此打通了原函数与定积分之间的联系,它 表明:一个连续函数在区间[a, b]上的定积分等于它的任一原函数在区间[a, b]上的增量。

相当于函数反向求导得到的原函数本来就代表面积,那么F(b)-F (a)自然就是这两点之间的面积之差。

即对于
,当要求f(x)在x轴在0到1之间围成的面积时,即要计算
,则找到的一个原函数
,所以

2.3.4 偏导数

对于二次函数
如果令自变量y固定,自变量x变化。函数对x求导,就称为二元函数
对于x的偏导数。

定义 设函数
在点
的某一邻域内有定义,当y固定在
而x在
处来增量时,相应地函数有增量
如果极限
存在,则称此极限函数
在点
处对x的偏导数,记作:

类似的,二元函数对求偏导,则把x当作常量。

此外,上述内容只讲了一阶偏导,而有一阶偏导就有二阶偏导。

3 矩阵分解

矩阵分解(Matrix Factorization)是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

矩阵分解的一个常见类比是数字因子分解,例如将10因子分解为2×5。与分解实数值一样,有很多方法可以分解矩阵。因此有一系列不同的矩阵分解技术。

举例:近似非负矩阵分解的展示。矩阵V是由两个较小的矩阵W和H表示,当它们相乘时,近似地重构V。

矩阵分解原理

矩阵分解算法将m×n维的矩阵R分解成m×k的矩阵P和k×n维的矩阵Q相乘的形式。k为隐向量(Latent Factor)的维度。k的大小决定了隐向量表达能力的强弱。

3.1 特征值分解

A为n阶矩阵,若数λ 和n维非0列向量单位满足
,那么数
称为A的特征值,称为A对应于特征值
的特征向量。可以这样理解:
为矩阵变化的大小,
为矩阵变换的方向。但是特征值只能用于方阵。

特征值分解,就是将矩阵A分解为如下式
Q是矩阵A的特征向量组成的矩阵,
则是一个对角阵,对角阵的元素就是特征值。里面的特征值由大到小排列,这些特征值所对应的特征向量就是描述这个矩阵变换方向。我们通过特征值分解,得到前N个特征向量,这就对应了这个矩阵最主要的N个变化方向。我们利用前N个变化方向,就可以近似这个矩阵变换。也就是说:提取这个矩阵最重要的特征。

例:方阵A如下

首先,由方针A的特征方程,求出特征值。
特征值

然后,把每个特征值
带入线性方程组
求出特征向量

最后,方阵A的特征值分解为:

3.2 奇异值分解

假设一个矩阵M是一个m×n的矩阵,则一定存在一个分解
其中U是m×m的正交矩阵,V是n×n的正交矩阵,Σ是m×n的对角矩阵。Σ对角线上的元素就称为M的奇异值。

例如:A矩阵
矩阵A为6×4 的用户评分矩阵,6个用户对4个物品一共有19个评分,0代表没评分。

使用SVD进行分解得到:

分解后,U矩阵为6×6的正交矩阵,V为4×4的正交矩阵。S为对角矩阵即公式中的
。选取S中较大的k个元素作为隐含特征。删除S的的其他维度以及U和V对应的维度,矩阵分解就完成了。

我们使用最大的k个值和对应大小的U、V矩阵来近似描述原始的评分矩阵。这就是SVD做降维算法的核心思想。

这里k取2 则

3.4 矩阵分解的原因

分解是说:把一个复杂的东西拆解开来,看看哪些基本部件存在。

通过研究这些基本部件,来解析这个复杂物体,这个思想在数学中经常能够看到,比如说因式分解,泰勒展开,傅里叶变换,基变换等。

通过某种手段,可以讲矩阵分解成基本的单元。通过这些基本单元,我们可以重新构造出该矩阵。

3.5 矩阵分解作用

  • 矩阵填充(通过矩阵分解来填充原来矩阵,例如协同过滤的ALS算法就是填充原来矩阵)
  • 清理异常值与离群点
  • 降维、压缩
  • 个性化推荐
  • 间接的特征组合(计算特征间相似度)

4 概率论

4.1 样本空间

定义:随机试验E的所有结果构成的几何称为E的样本空间,记为
,称S中的元素e为样本点,一个元素的单点集称为基本事件

4.2 概率

1.条件概率就是事件A在另一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。

2.联合概率表示两个事件共同发生的概率,A与B的联合概率表示为P(A∩B)或者
P(A,B)。

3.边缘概率是某个事件发生的概率。A的边缘概率表示为P(A),B的边缘概率表示
P(B)。

且:

4.3 全概率公式

4.4 贝叶斯定理

贝叶斯定理(Bayes’ theorem),是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。

通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。

5 解析几何

5.1 范数

对于几何向量,即从原点开始的有向线段,直观地说,它的长度是有向线段的“终点”到原点的距离。下面,我们将用范数来讨论向量长度这一概念。

向量空间V的范数是一个指定每个向量x的长度的函数

例:欧几里得范数

5.2 内积

内积可以引入一些直观的几何概念,例如向量的长度和两个向量之间的角度或距离。内积的一个主要目的是确定向量之间是否正交。

5.3 点积

我们可能已经熟悉了一种特殊类型的内积,中的标量积。

在这本书中,我们将把这种特殊的内积称为点积。

6 后记

本文目的希望大家能够简单了解一些涉及人工智能的数学知识,本文目前略有粗糙,部分内容还未完善,后续再改。

作业:本文读懂即可。

参考文章:

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号