欧式距离与余弦相似度
创作时间:
作者:
@小白创作中心
欧式距离与余弦相似度
引用
1
来源
1.
https://www.cnblogs.com/jack-lee/p/3654209.html
在数据分析和机器学习领域,相似度度量是评估样本间差异的重要方法。欧式距离和余弦相似度是两种常用的相似度度量方式,它们各有特点和适用场景。本文将详细介绍这两种度量方法的计算公式、归一化处理以及如何选择合适的度量方式。
1)概述
两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;
空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。
2)计算公式
欧氏距离(也叫欧几里得距离)公式:
余弦相似度的计算公式如下:
3)归一化
一般来说,为了比较的方便,都会对得到的结果进行归一化处理:
1)在欧氏距离公式中,取值范围会很大,一般通过如下方式归一化:
sim = 1 / (1 + dist(X,Y))
2)因为余弦值的范围是 [-1,+1] ,相似度计算时一般需要把值归一化到 [0,1],一般通过如下方式:
sim = 0.5 + 0.5 * cosθ
经过归一化处理以后,相似度全部落在了0和1之间,值越大,相似度越高。
4)相似度度量的选择
选择哪种度量方式,没有统一的结论,要依据处理数据的特点来进行确定,可以参考一下知乎上关于这个问题的讨论:http://www.zhihu.com/question/19640394
热门推荐
Excel制作带年份数据的图表:从入门到精通
宋朝传统版《百家姓》,第163名,“支姓”的起源和历史,你知道吗?
舌尖上的春天:时令食材与美味食谱全攻略
AI修图用什么电脑好用?从硬件配置到软件选择的全面指南
柳雷鸟的四季羽毛变化及特征描述
肝脏损伤吃什么恢复快
构建你的学术论文:从大纲到 2024-2025 年的最终稿
Cell(IF=45.5) 丨被晒死的细胞?揭示紫外线诱导细胞凋亡的机制
Cell重磅:揭开紫外线导致细胞死亡的作用机制
小酥肉(详细份量版)
如何设计一套上传文件的API
德国工作时间与心理健康:工作与休息的科学
一诗一座城,一词一盛景,哪首写的是你故乡?
道教与佛教:中国宗教文化的两大流派
为何猪八戒要一口吞掉人参果,连嚼都不嚼?只因他知道其中秘密
什么是私域运营?如何从0到1打造高效的私域生态?
什么是基于价值的定价?
Swift二阶段初始化机制详解:原理与安全检查
茶杯泰迪的寿命有多长?如何延长其寿命?
折叠自行车的五种基本设计策略
互换性的定义及其在工业生产中的重要性
盐水虾是冷水下锅还是热水下锅?真相揭秘!
什么是易数?河图洛书、八卦之“数”到底是什么?
胃不舒服时的饮食注意事项
秋季干燥上火喝什么茶比较好
35部适合孩子看的英文电影,豆瓣评分平均8.2分,赶紧收藏起来!
如何减少食物的咸味
肾病患者食用香椿全攻略:营养价值与注意事项
沁园春雪的历史背景与情感解读
食物买回家后应该如何妥善贮存?