问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

深度学习笔记1-数学基础

创作时间:
作者:
@小白创作中心

深度学习笔记1-数学基础

引用
CSDN
1.
https://m.blog.csdn.net/2503_90568059/article/details/145645286

深度学习作为人工智能领域的重要分支,其理论基础离不开扎实的数学知识。本文将从向量和矩阵、范数、导数和偏导数、概率分布等多个方面,系统地介绍深度学习所需的数学基础知识,帮助读者构建坚实的理论基础。

向量和矩阵

  • 标量(scalar):一个标量表示一个单独的量,如1,3,π等。
  • 向量(vector):一个向量表示一组有序排列的数。通过次序中的索引,可以确定每个单独的数。通常赋予向量粗体的小写变量名称,比如x。也就是一维数组。
  • 矩阵(matrix):矩阵是具有相同特征和维度的对象的集合,也就是二维数组。
  • 张量(tensor):超过二维的数组,都称之为张量,也就是三维和三维以上的数组。这里和数学《张量分析》和《张量代数》中的张量定义不一样。

向量的范数

定义一个向量为a=[-5,6,8,-10]。将任意一组向量设为x=[x1,x2,x3,……,xN]。其不同的范数含义如下。

  • 向量x的1范数:向量各个元素的绝对值只和
  • 向量x的2范数:向量各个元素的平方和的平方根
  • 向量x的负无穷或正无穷范数:向量中所有的绝对值中最小值或最大值
  • 向量x的p范数:可以看成向量2范数的扩展,向量各个元素的绝对值的p次方和的1/p次幂

值得注意的的,上式中p≥1,并且当p趋向于无穷大时(无穷范数),x的p范数值等于极大值范数,也就是等于x中所有元素绝对值中的最大值。

矩阵的范数

  • 矩阵的1范数(列范数):对矩阵每一列上的元素绝对值先求和,再从中取一个最大的(列和最大)
  • 矩阵的2范数:矩阵的最大特征值的平方根(这里假设A是实矩阵)
  • 矩阵的无穷范数(行范数):对矩阵每一行的元素绝对值先求和,再从中取最大值(行和最大)
  • 矩阵的核范数:矩阵奇异值之和,这个范数可以用低秩表示(因为最小化核范数,相当于最小化矩阵的轶,即低秩)

矩阵的L0范数和L1范数,还有F范数。这里不详细讲。

正定矩阵

判断一个矩阵是否为正定矩阵,通常考察是否满足以下条件之一,满足其中一条即可:

  1. 顺序主子式全部大于0
  2. 特征值全为正;也就是标准型中主对角矩阵元素全为正,正惯性指数等于n

特征值分解,奇异值 线代内容,具体看书。

导数和偏导数

  • 导数定义:导数(derivative)代表自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是在线段中该点的切线,物理意义是该时刻的(瞬时)变化率。
  • 偏导数:在二元及以上的函数中,偏导数就是函数沿某一坐标轴正方向的变化率,其他自变量固定不变。

可导、可微、连续和极限的关系:可微一定连续,连续不一定可微。在一元函数中,可微和可导是等价的,都意味着函数在该点存在唯一的切线;对于多元函数,可微要求所有的偏导数连续,这是一个比可导更强的条件,对于多元函数而言,可偏导不一定可微,所以不一定连续。函数在某点可微,则该点一定存在极限,极限是连续性的表现。

概率分布与随机变量

机器学习的课程中,判断电子邮件是否为垃圾邮件。假设无论是否为垃圾邮件,单词1出现在邮件中的概率条件都独立于单词2出现在邮件中的概率。很明显,这个假设并不是一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,依据其他的情况可以让我们快速分辨出垃圾邮件。

  • 随机变量与概率分布:用来描述随机变量可能状态的可能性大小的概率规律,就是概率分布(probability distribution)。随机变量可以分为离散型和连续型随机变量。
  1. 概率质量函数(probability mass function,PMF):描述离散型随机变量的概率分布,通常用大写字母P表示。每个随机变量的概率单独列出。
  2. 概率密度函数(probability density function,PDF):描述连续性随机变量的概率分布,通常用小写字母p表示。计算随机变量在某一区间内的概率。
  • 条件概率:也就是在同一样本空间Ω中的事件子集A、B,如果在符合B的前提下,A出现的概率。

  • 联合概率和边缘概率:联合概率指在多元的概率分布中,多个随机变量分别满足各自条件的概率。边缘概率是某个事件发生的概率,与其他事情无关,但是单独行(或列)的所有事件发生的概率和为1。

其中红色部分表示边缘概率,左上白色部分表示联合概率。这里如果里面的时间是相互独立的,这根据边缘概率是可以求得联合概率的(联合概率等于概率的乘积),但是对于不独立的事件是无法计算联合概率的,就如上图。

常见概率分布

  1. 伯努利分布(Bernoulli Distribution)是单个二值随机变量分布,也就是常说的0-1分布,由参数(1的概率)控制。
  2. 高斯分布(正态分布Normal Distribution),概率密度函数如下:

其中和分别是均值和方差,中心峰值x的坐标由给出,峰的宽度受控制,最大点在x=处,拐点为。在正态分布中,±1,±2,±3下的概率分别为68.3%、95.5%、99.73%,这三个概率为常用概率值。当=0,=1,高斯分布即简化为标准正态分布。

注:实际上,如果缺少分布规律的先验知识,不知选择何种形式,那么默认选择正态分布总是不会错的,理由如下:

  1. 中心极限定理告诉我们,很多独立随机事件均近似服从正态分布,现实中很多复杂系统都可以被建模成正态分布的噪音,即使该系统可以被结构化分解。

  2. 在具有相同方差的所有概率分布中,正态分布是不确定性最大的分布。换句话说,正态分布是对模型加入先验知识最少的分布。

  3. 指数分布、拉普拉斯分布、Dirac分布和经验分布。指数分布用来描述在x=0处取得边界点的分布;拉普拉斯分布允许我们在任意一点处设置概率质量的峰值。Dirac分布可保证概率分布中的所有密度都集中在一个点上,也就是概率分布图是一个脉冲。经验分布是基于数据的分布,用来近似真实分布(通常称为“总体分布”),也就是用来估算每个点的概率。

期望、方差、协方差、相关系数

  • 期望:在概率论中,数学期望(简称期望或均值)等于实验中每次可能结果的概率乘以其结果的综合,一般用E表示。反映了随便变量平均取值的大小。
  • 方差:用来度量随机变量和其数学期望之间的偏离程度。方差是一种特殊的期望,用Var表示。
  • 协方差:是衡量两个变量线性相关程度及变量尺度,用Cov表示。
  • 相关系数:是研究变量之间线性相关程度的量,用Corr表示。相关系数有以下性质:
    1. 有界性。相关系数的取值范围是-1到1,可以看成无量纲的协方差。
    2. 相关系数的值越接近1,说明两个变量正相关性(线性,也就是相似度)越强;越接近-1,说明负相关性越强;当值为0时,表示两个变量没有相关性。

本文原文来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号