问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI知识:距离度量和相似性度量的常见算法

创作时间:
作者:
@小白创作中心

AI知识:距离度量和相似性度量的常见算法

引用
CSDN
1.
https://m.blog.csdn.net/qq_45791939/article/details/143027477

本文介绍一些AI中常见的距离度量和相似性度量算法:

欧几里得距离(Euclidean Distance)

欧几里得距离是最常见的距离度量方法,用来计算两个向量之间的“直线距离”,也被成为L2范数。公式如下,其中x和y是两个n维向量,xi和yi分别是它们的第i个分量。

应用示例:在图像识别或聚类算法(如K-Means)中,欧几里得距离常用于度量数据点之间的相似性。

曼哈顿距离(Manhattan Distance)

曼哈顿距离也称为“L1距离”或“城市街区距离”,它是两个向量之间的绝对坐标差值之和。

应用示例:在图像处理中,可以将图像的像素值表示为向量,通过计算不同图像像素向量之间的曼哈顿距离,衡量图像的相似性。

余弦相似度(Cosine Similarity)

余弦相似度衡量的是两个向量之间的夹角余弦值,用于评估两个向量在方向上的相似性。公式如下,其中x ⋅ y表示向量的点积,∥ x ∥和∥ y ∥是向量的范数(有L1范数,即曼哈顿距离,L2范数,即欧几里得距离),(即向量的长度)。计算出的余弦相似性值介于 [−1,1] 之间,值越接近1,两个向量的方向越相似,值越接近-1,则表示两个向量的方向越相反,值为0则表示它们是正交的(即完全不相似)。

应用示例:在自然语言处理(NLP)中,将文本表示为词向量,通过计算不同文本向量之间的余弦相似度,可衡量文本的语义相似性。

闵可夫斯基距离(Minkowski Distance)

闵可夫斯基距离是欧几里得距离和曼哈顿距离的广义形式,参数p控制距离计算的形式。当p = 1时,它是曼哈顿距离;当p = 2时,它是欧几里得距离。

应用示例:闵可夫斯基距离在需要调整距离度量灵活性时使用广泛。

切比雪夫距离(Chebyshev Distance)

切比雪夫距离是向量分量之间最大差值的度量,用于衡量两个向量在一个维度上的最大变化。

应用示例:切比雪夫距离常用于棋盘上棋子的移动问题(如国际象棋中的国王),因为它考虑的是最大一步距离。

马氏距离(Mahalanobis Distance)

马氏距离(Mahalanobis Distance)是一种距离的度量,可以看作是欧氏距离的一种修正,它考虑了各个维度的不同尺度,还考虑了数据的相关性,即协方差结构。

  • 一个点和总体数据集之间的马氏距离:
  • 两个点之间的马氏距离:

应用示例:马氏距离在异常检测和聚类算法中使用,特别是在数据具有不同尺度和相关性的情况下。

汉明距离(Hamming Distance)

汉明距离用于计算两个等长向量(通常是二进制向量)中不相同位置的个数。

其中,I ( xi ≠ yi )为指示函数,当xi和yi不相等时值为1,否则为0。

应用示例:汉明距离常用于衡量两个字符串或二进制序列之间的差异,广泛用于纠错码和信息编码中。

Jaccard系数(Jaccard Index)

Jaccard系数(Jaccard Index)是衡量两个集合相似性的一种常用指标。它的定义是两个集合交集的大小与两个集合并集的大小之比。Jaccard系数的值范围从0到1,0表示完全不相似,1表示完全相似。

应用示例:在自然语言处理和信息检索中,Jaccard系数常用于比较文档的相似性,尤其是在处理词袋模型(Bag of Words)时。

什么是点积?

点积(dot product),也叫内积(inner product),是两个向量之间的一种运算,通常用于衡量两个向量的相似性或相关性。

点积的定义:

点积的几何解释:

应用示例:在机器学习和自然语言处理中,点积常用于衡量向量之间的相似性,尤其是在计算余弦相似度时。两个向量越相似,它们的点积越大。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号