欧式距离与余弦相似度
创作时间:
作者:
@小白创作中心
欧式距离与余弦相似度
引用
1
来源
1.
https://www.cnblogs.com/jack-lee/p/3654209.html
在数据分析和机器学习领域,相似度度量是评估样本间差异的重要方法。欧式距离和余弦相似度是两种常用的相似度度量方式,它们各有特点和适用场景。本文将详细介绍这两种度量方法的计算公式、归一化处理以及如何选择合适的度量方式。
1)概述
两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;
空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。
2)计算公式
欧氏距离(也叫欧几里得距离)公式:
余弦相似度的计算公式如下:
3)归一化
一般来说,为了比较的方便,都会对得到的结果进行归一化处理:
1)在欧氏距离公式中,取值范围会很大,一般通过如下方式归一化:
sim = 1 / (1 + dist(X,Y))
2)因为余弦值的范围是 [-1,+1] ,相似度计算时一般需要把值归一化到 [0,1],一般通过如下方式:
sim = 0.5 + 0.5 * cosθ
经过归一化处理以后,相似度全部落在了0和1之间,值越大,相似度越高。
4)相似度度量的选择
选择哪种度量方式,没有统一的结论,要依据处理数据的特点来进行确定,可以参考一下知乎上关于这个问题的讨论:http://www.zhihu.com/question/19640394
热门推荐
滨州市最新交通违章处理全攻略
禁毒知识丨吸毒的危害有多大?
白沙街道:社区书记组团“迎进来” 基层经验“送出去”
命理八字配对表详解:如何通过八字分析找到最佳伴侣
3个动作,坐着就能帮助你促进下肢血液循环
SCL-90自评量表评分标准详解:从0到4等级的量化评估
科技赋能桃花产业,万荣县走出农业现代化新路
南京三大网红小吃:龙袍蟹黄汤包、盐水鸭、鸭血粉丝汤
在家轻松做出地道南京菜,你get了吗?
桃花种植:环保新宠还是生态隐患?
鸡胸肉:营养与美味的完美平衡
鸡蛋热量揭秘:如何健康摄入?
中专生升学全攻略:9种升学途径详解
干货分享-间接免疫荧光实验
爱康国宾教你如何应对甲流:企业健康管理指南
大数据预测助力甲流防控:从趋势预测到科学应对
4-7-8呼吸法:心血管健康的简单守护者
4-7-8呼吸法:60秒助你轻松入睡的科学方法
哈佛专家推荐:4-7-8呼吸法助你减压
国家电网认可的“金钥匙”:如何考取高压电工证?
如何利用人工智能提升客服效率?
如何确保产品原型设计的适用性和持续性
UN38.3认证:锂电池运输和使用的关键标准
UN38.3认证是什么?主要测试的内容是什么?
不同的季节胎压达到多少才合适?
宝宝拉肚子挂什么科
管理触控ID指纹:iPhone、iPad和Mac设备设置指南
武汉今年新增中小学学位6.64万个,更多学生就读家门口的好学校
教育信息化嬗变及其智能化趋势
麦基洗德等次:现代信徒的心灵指南