问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

什么是欧式距离、曼哈顿距离、切比雪夫距离?

创作时间:
作者:
@小白创作中心

什么是欧式距离、曼哈顿距离、切比雪夫距离?

引用
简书
1.
https://www.jianshu.com/p/a826810bae85

在数学和数据科学领域,距离度量是一个基本而重要的概念。本文将详细介绍三种常见的距离度量方法:欧式距离、曼哈顿距离和切比雪夫距离。这些距离度量不仅在几何和代数中有着重要的理论意义,而且在机器学习、优化理论和各种工程领域中都有着广泛的应用。

欧式距离(Euclidean Distance)

欧式距离是最直观的距离度量方式,可以理解为两个点之间的“直线距离”。它来源于我们熟悉的欧几里得空间,是欧氏几何的经典概念。考虑两个点

,其在 n 维空间的坐标表示为向量 ( A ) 和 ( B ),欧式距离可以定义为两点之间坐标差的平方和的平方根:

如果把点 ( A ) 和点 ( B ) 分别写作向量

,那么欧式距离可以通用地写为:

欧式距离体现了直角三角形的勾股定理。通过构建一个多维直角三角形,从而把各维度的距离分别求平方并相加,最后通过开平方得出结果。具体推导如下:

对于二维平面中的两个点

,可以构建一个直角三角形,其中一个边的长度为
,另一边为
。根据勾股定理,直角三角形斜边的长度 ( d ) 可以表示为:

对于 n 维的情况,本质上是这个二维推导过程的自然推广。每一个维度都视为是一个正交的轴,对应的平方和也增加相应的维度。

欧式距离的几何意义可以被理解为“最短路径距离”。假设一个人要从点 ( A ) 移动到点 ( B ),欧式距离给出了这两点间最短的直线路径。因此在很多优化问题中,特别是寻找最短路径或者最短距离的场景中,欧式距离是最直接的度量手段。

欧式距离的应用与局限性

欧式距离在很多场景中都非常有用,例如计算图像特征向量之间的相似性,或者在 k 均值聚类(k-means clustering)中使用来度量不同数据点之间的距离。然而,欧式距离对数据的尺度非常敏感。如果各个维度之间的量纲不同或者数值范围差异很大,那么某些维度的差异将会显著影响整体距离。因此在使用欧式距离时,通常需要先对数据进行标准化处理。

曼哈顿距离(Manhattan Distance)

曼哈顿距离有时也被称为“街区距离”或者“L1 距离”,其灵感来源于在曼哈顿这样一个由网格状街道组成的城市里,两个位置之间的距离。与欧式距离不同,曼哈顿距离计算的是沿着轴向的路径长度。因此它是通过所有坐标轴的距离的绝对值相加得到的。

对于两个点

,曼哈顿距离可以表示为:

用向量表示,假设

,则曼哈顿距离为:

这个距离可以被理解为两个点之间沿各个坐标轴的移动距离的总和。在曼哈顿这样的城市中,由于不能斜向穿越建筑物,行人只能沿着东西方向和南北方向的街道前进,因此这种距离度量方式是合理的。

几何理解

在几何意义上,曼哈顿距离对应的是一种网格上的“最短路径”。这种路径不允许沿着对角线方向移动,只能沿着水平和垂直方向。通过使用曼哈顿距离,我们可以避免对角线距离在不允许的方向上的偏移。

假设有两个点 ( A = (1, 1) ) 和 ( B = (4, 5) ),那么根据曼哈顿距离的定义:

这说明从 ( A ) 到 ( B ) 的最短距离是通过沿水平或垂直方向依次移动的总距离。

曼哈顿距离的应用

曼哈顿距离在某些特定的机器学习算法中广泛应用,尤其是在稀疏数据的场景中。举例来说,在推荐系统中,当用户特征是稀疏的,例如只对少数几个物品有评分时,曼哈顿距离可能比欧式距离更适合,因为它不会受到某些特征具有较大偏差的影响。

此外,曼哈顿距离在解决优化问题时,尤其是在涉及绝对值约束的场景中,也有着不可替代的作用。在高维空间中,曼哈顿距离的几何特征表现为维度增加时其距离的增长比欧式距离更为线性,因此适用于某些对距离增长敏感的场景。

切比雪夫距离(Chebyshev Distance)

切比雪夫距离也叫做“棋盘距离”或者“L∞ 距离”。它度量两个点之间的“最大坐标差异”,即在各个维度上它们之间的最大差值。在二维空间里,这种距离可以理解为国际象棋中国王的移动次数,国王可以在水平、垂直或对角线上移动任意数量的格子。

对于两个点

,切比雪夫距离的定义是:

同样,用向量来表示,假设

,切比雪夫距离则为:

在几何上,切比雪夫距离衡量的是一个正方体中的两个对角顶点之间的距离。它是通过比较各个维度上的坐标差值并选取最大的那一个。这意味着这种距离度量在描述两点之间“最远的相异点”的距离时非常有用。

几何意义

切比雪夫距离的几何意义可以在二维平面中形象地理解为描述“最大位移”。假设有两个点
和 B = (4, 5) ,那么根据切比雪夫距离的定义:

在国际象棋中,这意味着国王从位置 ( A ) 移动到位置 ( B ) 需要四步,无论是沿着水平、垂直还是对角线方向。国王每次移动最多只能移动一个单位,因此切比雪夫距离的度量方式反映了这种移动限制。

切比雪夫距离的应用

切比雪夫距离在实际应用中适用于那些需要衡量各个方向上最大变化的场景。例如,在图像处理领域,当考虑到像素之间的色彩差异时,切比雪夫距离可以用来评估色彩通道上最大的偏差。此外,在一些特定的调度问题中,如果最大偏差是关键的衡量标准,切比雪夫距离也非常适用。

不同距离度量之间的比较

这三种距离度量方法有着不同的特性和应用场景。在不同情况下,选择合适的距离度量方式是至关重要的,因为它们直接影响到距离度量结果和后续的计算分析。

  • 欧式距离是最常见的度量方法,适用于数据维度间没有显著量纲差异,且需要计算真实空间中“最短距离”的情形。它对噪声较为敏感,因为每一个维度的距离都经过平方后参与最终结果的求和。如果某一维度的数值范围比其他维度大很多,它将显著影响到最终的距离,因此在实际应用中通常需要对数据进行标准化处理。

  • 曼哈顿距离更适用于稀疏数据场景。它避免了对坐标差平方导致的数据放大,因此对异常值不敏感。特别是当数据本身是离散的,例如网络流量、文本特征等,曼哈顿距离可以更好地反映出两者的差异度。

  • 切比雪夫距离在需要衡量“最大偏差”的场景中最有用。这种度量方式忽略了其他维度的变化,仅考虑两个点之间最大的坐标差值,因此在描述一些对最大值特别敏感的问题时尤为合适。

在高维空间中,距离度量的效果可能会发生变化。这是由于维度灾难效应,在维数增加的情况下,各种距离度量的相对差异可能会逐渐变小,进而使得它们在高维情况下的差异性难以发挥。对这些距离的合理选择依赖于对数据特性的理解和具体问题的需求。

距离的统一表示与 Lp 范数

欧式距离、曼哈顿距离和切比雪夫距离都是 Lp 范数的特殊情况,可以通过 Lp 范数的统一形式来表示:

在 Lp 范数中,p 值的选择决定了距离的形式:

  • 当 ( p = 1 ) 时,即为曼哈顿距离。
  • 当 ( p = 2 ) 时,即为欧式距离。

  • 时,即为切比雪夫距离。

这种形式统一了不同距离度量的表示方法,可以帮助理解它们之间的内在联系。从几何角度看,Lp 范数描述的是从原点到某一点的不同“路径”下的距离长度。在具体的应用中,选择哪种距离范数主要取决于问题的特性,例如是否需要惩罚某一维度的差异,是否需要考虑最大差异,或者是否有其他噪声问题。

结论

在数学和数据科学中,距离度量是一个基本而重要的概念。欧式距离、曼哈顿距离和切比雪夫距离各自有着不同的几何意义和应用场景。欧式距离描述了直线路径,是最常用的距离度量方式;曼哈顿距离描述了沿坐标轴移动的最短路径,适用于稀疏数据和量纲差异较大的情况;切比雪夫距离则描述了最大差异,适用于那些对最大值特别敏感的问题。

在高维空间中,这些距离的度量方式可以通过 Lp 范数进行统一表示。选择合适的距离度量方法,需要结合问题的特性以及数据的特征,考虑到距离计算对模型结果的影响。在机器学习、模式识别、图像处理、物流调度等各个领域中,理解和应用合适的距离度量,是解决实际问题的关键环节。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号