欧式距离与余弦相似度
创作时间:
作者:
@小白创作中心
欧式距离与余弦相似度
引用
1
来源
1.
https://www.cnblogs.com/jack-lee/p/3654209.html
在数据分析和机器学习领域,相似度度量是评估样本间差异的重要方法。欧式距离和余弦相似度是两种常用的相似度度量方式,它们各有特点和适用场景。本文将详细介绍这两种度量方法的计算公式、归一化处理以及如何选择合适的度量方式。
1)概述
两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;
空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。
2)计算公式
欧氏距离(也叫欧几里得距离)公式:
余弦相似度的计算公式如下:
3)归一化
一般来说,为了比较的方便,都会对得到的结果进行归一化处理:
1)在欧氏距离公式中,取值范围会很大,一般通过如下方式归一化:
sim = 1 / (1 + dist(X,Y))
2)因为余弦值的范围是 [-1,+1] ,相似度计算时一般需要把值归一化到 [0,1],一般通过如下方式:
sim = 0.5 + 0.5 * cosθ
经过归一化处理以后,相似度全部落在了0和1之间,值越大,相似度越高。
4)相似度度量的选择
选择哪种度量方式,没有统一的结论,要依据处理数据的特点来进行确定,可以参考一下知乎上关于这个问题的讨论:http://www.zhihu.com/question/19640394
热门推荐
选择低Gl食物,多吃粗杂粮
如何正确使用空调,拥有“清凉一夏”?
男命八字看正缘准吗探讨八字命理在现代社会的应用与局限
十大恐怖魔怪大PK之温迪戈
温迪戈:北美印第安传说中的食人恶魔
新书 | 《神圣家族》与历史唯物主义的形成
如何制定阅读计划?掌握4大阅读黄金时间,提高学习效率
天主教历史及中国天主教的历史
高一各科满分是多少 成绩如何评判
黄金投资攻略:把握机遇,应对挑战
工伤认定有哪些特殊情况?
伯乐一顾:机遇与实力匹配的命运转机
伊朗石油回归全球市场后对全球供应和国际油价造成的影响分析
地缘政治紧张局势提升供应风险,原油价格区间波动
动漫头像设计构图教程
如何管理房贷还款计划
以前房贷利率5.8如何转为3.8
开西餐餐厅需要了解哪些市场需求?(开西餐需要做什么市场调研)
“老”“外”支付更便利了 可灵活选择多种支付方式
家里出现老鼠的迹象有哪些?如何及时察觉和采取有效措施?
全年龄段护耳攻略来了
欧体楷书结构28法详解
关元穴疼痛?原因、自查与就医指南
科学减重,收好这份健康饮食清单
有效快速减肥运动指南:有氧运动、力量训练和HIIT
古典风格别墅装修中如何选择合适的色彩与材料?
卫生巾干燥导渗技术的研究与应用(美国全意卫生巾提出研究并发布)
食物中的花青素是摄入越多越健康吗?
热门医用面膜评测:适合敏感肌的修复神器
智慧食堂新纪元:小碗菜+智能设备,重塑餐饮体验