欧式距离与余弦相似度
创作时间:
作者:
@小白创作中心
欧式距离与余弦相似度
引用
1
来源
1.
https://www.cnblogs.com/jack-lee/p/3654209.html
在数据分析和机器学习领域,相似度度量是评估样本间差异的重要方法。欧式距离和余弦相似度是两种常用的相似度度量方式,它们各有特点和适用场景。本文将详细介绍这两种度量方法的计算公式、归一化处理以及如何选择合适的度量方式。
1)概述
两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;
空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。
2)计算公式
欧氏距离(也叫欧几里得距离)公式:
余弦相似度的计算公式如下:
3)归一化
一般来说,为了比较的方便,都会对得到的结果进行归一化处理:
1)在欧氏距离公式中,取值范围会很大,一般通过如下方式归一化:
sim = 1 / (1 + dist(X,Y))
2)因为余弦值的范围是 [-1,+1] ,相似度计算时一般需要把值归一化到 [0,1],一般通过如下方式:
sim = 0.5 + 0.5 * cosθ
经过归一化处理以后,相似度全部落在了0和1之间,值越大,相似度越高。
4)相似度度量的选择
选择哪种度量方式,没有统一的结论,要依据处理数据的特点来进行确定,可以参考一下知乎上关于这个问题的讨论:http://www.zhihu.com/question/19640394
热门推荐
如何确认项目经理工资
成人高尿酸血症与痛风食养指南(2024版)
江苏新高考时间科目安排表2025最新(各门具体考试时间)
鲁迅的左翼思想是什么简略的
建筑设计中开间与进深的关系探讨
益阳松花皮蛋:一道传承百年的湖湘美食
终端需求和政策驱使Micro LED行业快速发展
杭州公安春节安保工作数据发布:投入警力13.5万人次,接警量降5.95%
橘子知多少?
蛋白粉营养成分表及使用指南
全球高端白酒市场深度分析:规模、份额及增长趋势
论文英文文献怎么降低查重
淘宝买的东西一直不发货怎么办?这份维权指南请收好
主动安全观:每个人都应成为自己生命安全的第一责任人
思瑶女孩名字的寓意解析
制作酥脆蛋挞皮的详细步骤与材料分享,让美味轻松到手
Cell | 解密长新冠后遗症—原来低血清素在“捣鬼”
C语言实现坐标移动的多种方法
探索软件开发语言的发展现状与未来趋势:哪些语言将主导市场?
如何根据家族传统来给孩子取名?传统命名与现代命名有何不同?
如何找到适合自己的健康生活方式?探索饮食、运动与心理平衡的关键
中国女性内衣的变迁:从含蓄到多元
费雪效应:含义、例子和重要性
儿童游乐场安全隐患整改措施
什么是香蕉插头?香蕉插头工作原理和作用、类型
3.5mm与Type-C耳机插座:引脚定义与电气特性深度解析
家庭教育与孩子的财商教育:从小树立正确的金钱观
大学绩点完全指南:从概念到高分攻略
害怕的英语单词有哪些?常用的表达害怕的词汇
罗马建筑的拱券技术为什么能对后世产生广泛影响?