资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

机器学习中的觉的距离和相似度

创作时间:

作者:

@小白创作中心

机器学习中的觉的距离和相似度

引用

CSDN

https://blog.csdn.net/xhtchina/article/details/121553438

在机器学习领域，距离和相似度度量是聚类算法Clustering的核心，用于判断两条数据是否属于同一类别。本文将详细介绍11种常用的距离和相似度度量方法，包括它们的定义、优缺点和应用场景。

1. 欧几里得距离

欧几里得距离是最常见的距离度量方法，其定义为连接两点的线段长度。计算公式基于毕达哥拉斯定理，适用于平面坐标上的两点。

1.1. 缺点

尺度敏感性：欧氏距离受特征单位影响，因此在使用前通常需要对数据进行标准化。
维度诅咒：随着数据维度的增加，欧氏距离的效果会变差，因为高维空间中的距离分布与低维空间有显著差异。

1.2. 使用案例

欧氏距离适用于低维数据场景，特别是在KNN和HDBSCAN等算法中表现良好。尽管存在一些局限性，但由于其直观性和简单性，它仍然是最常用的距离度量方法之一。

2. 余弦相似性

余弦相似性通过计算两个向量之间的夹角余弦值来衡量它们的方向相似度。当两个向量完全同向时，余弦相似度为1；完全反向时，相似度为-1。

2.1. 缺点

不考虑向量大小：余弦相似性只关注方向，忽略了数值大小的差异。在推荐系统中，这意味着它无法区分用户评分标准的差异。

2.2. 使用案例

余弦相似性特别适用于高维数据场景，如文本分析。在这种情况下，词频的绝对值往往不如方向信息重要，因此余弦相似性能够有效消除大小差异的影响。

3. 汉明距离

汉明距离用于衡量两个等长字符串在对应位置上不同字符的数量。它常用于计算机网络中的错误检测和纠正。

3.1. 缺点

长度限制：汉明距离要求比较的向量长度相同。
不考虑值的差异：它只关注是否相同，而不考虑实际值的差异。

3.2. 使用案例

汉明距离主要用于数据传输中的错误检测和纠正，以及分类变量之间的距离测量。例如，在二进制数据传输中，它可以计算失真比特数。

4. 曼哈顿距离

曼哈顿距离，又称出租车距离或城市街区距离，计算实值向量之间的距离时假设只能沿坐标轴方向移动，不能斜向移动。

4.1. 缺点

非直观性：在高维数据中，曼哈顿距离不如欧氏距离直观。
路径长度：由于只能沿坐标轴移动，曼哈顿距离通常会比欧氏距离大。

4.2. 使用案例

曼哈顿距离适用于包含离散和/或二进制属性的数据集。例如，在棋盘游戏中，棋子的移动路径通常遵循曼哈顿距离的规则。

5. 切比雪夫距离

切比雪夫距离定义为两个向量在任何坐标维度上的最大差异。它常用于国际象棋中计算国王从一个格子移动到另一个格子所需的最小步数。

5.1. 缺点

适用场景有限：切比雪夫距离主要用于特定场景，如棋盘游戏和仓库物流，不适合作为通用距离度量。

5.2. 使用案例

除了棋盘游戏外，切比雪夫距离还常用于仓库物流中，因为它与起重机移动物体所需的时间密切相关。

6. 闵可夫斯基距离

闵可夫斯基距离是一个更通用的距离度量，通过参数p控制距离的计算方式。当p取不同值时，可以得到不同的距离度量：

p=1：曼哈顿距离
p=2：欧几里得距离
p=∞：切比雪夫距离

6.1. 缺点

参数选择困难：选择合适的p值需要对各种距离度量有深入理解。
计算复杂性：相比单一距离度量，闵可夫斯基距离的计算更为复杂。

6.2. 使用案例

闵可夫斯基距离的灵活性使其在需要根据具体场景调整距离度量时非常有用。通过迭代p值，可以找到最适合特定应用场景的距离度量。

7. 雅卡德指数

雅卡德指数用于计算样本集的相似性和多样性，定义为两个集合交集的大小除以并集的大小。贾卡德距离则是通过从1中减去贾卡德指数得到。

7.1. 缺点

数据规模影响：大的数据集会显著影响雅卡德指数，因为并集的大小会随数据量增加而增加。

7.2. 使用案例

雅卡德指数常用于二进制或布尔数据的应用场景，如图像分割任务中的准确性评估，以及文本相似性分析中的词汇重叠度量。

8. 哈维辛距离

哈维辛距离用于计算球体上两点之间的距离，特别适用于地球表面两点间的距离计算。它假设地球是一个完美的球体，因此在实际应用中可能需要考虑地球的椭球形状。

8.1. 缺点

球体假设：地球并非完美球体，这可能导致计算结果的误差。

8.2. 使用案例

哈维辛距离主要用于导航和地理信息系统中，例如计算两个国家之间的飞行距离。在距离不是特别大的情况下，其效果可能不如欧氏距离。

9. 索伦森-戴斯指数

索伦森-戴斯指数与雅卡德指数类似，用于衡量样本集的相似性和多样性。其计算方式更直观，可以看作是两个集合之间重叠部分的百分比。

9.1. 缺点

权重分配问题：它对每个项目的权重与相关集合的大小成反比，可能导致平均得分的偏差。

9.2. 使用案例

索伦森-戴斯指数常用于图像分割任务和文本相似性分析，与雅卡德指数的应用场景相似。

10. 皮尔森相关系数

皮尔森相关系数用于度量两个变量X和Y之间的线性相关程度，其值介于-1与1之间。它具有平移不变性和尺度不变性，广泛应用于推荐系统等领域。

10.1. 特点

平移不变性：不受数据平移的影响。
尺度不变性：不受数据缩放的影响。

10.2. 使用案例

在推荐系统中，皮尔森相关系数用于为用户查找喜好相似的用户，进而提供个性化推荐。它能够有效克服用户评分标准不同和观看内容数量差异的影响。

11. KL散度

KL散度（Kullback-Leibler Divergence）用于衡量两个概率分布P和Q之间的差异。KL散度越小，说明两个分布越相似。

11.1. 特点

非对称性：KL散度不是对称的，即D(P||Q) ≠ D(Q||P)。
非负性：KL散度的值总是非负的。

11.2. 使用案例

KL散度常用于信息论、统计学和机器学习中，用于评估两个概率分布的差异程度。在自然语言处理中，KL散度可以用于主题模型的评估。