问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

欧式距离与余弦相似度

创作时间:
作者:
@小白创作中心

欧式距离与余弦相似度

引用
1
来源
1.
https://www.cnblogs.com/jack-lee/p/3654209.html

在数据分析和机器学习领域,相似度度量是评估样本间差异的重要方法。欧式距离和余弦相似度是两种常用的相似度度量方式,它们各有特点和适用场景。本文将详细介绍这两种度量方法的计算公式、归一化处理以及如何选择合适的度量方式。

1)概述

两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;

空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。

2)计算公式

欧氏距离(也叫欧几里得距离)公式:

余弦相似度的计算公式如下:

3)归一化

一般来说,为了比较的方便,都会对得到的结果进行归一化处理:

1)在欧氏距离公式中,取值范围会很大,一般通过如下方式归一化:

sim = 1 / (1 + dist(X,Y))

2)因为余弦值的范围是 [-1,+1] ,相似度计算时一般需要把值归一化到 [0,1],一般通过如下方式:

sim = 0.5 + 0.5 * cosθ

经过归一化处理以后,相似度全部落在了0和1之间,值越大,相似度越高。

4)相似度度量的选择

选择哪种度量方式,没有统一的结论,要依据处理数据的特点来进行确定,可以参考一下知乎上关于这个问题的讨论:http://www.zhihu.com/question/19640394

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号