欧式距离与余弦相似度
创作时间:
作者:
@小白创作中心
欧式距离与余弦相似度
引用
1
来源
1.
https://www.cnblogs.com/jack-lee/p/3654209.html
在数据分析和机器学习领域,相似度度量是评估样本间差异的重要方法。欧式距离和余弦相似度是两种常用的相似度度量方式,它们各有特点和适用场景。本文将详细介绍这两种度量方法的计算公式、归一化处理以及如何选择合适的度量方式。
1)概述
两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;
空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。
2)计算公式
欧氏距离(也叫欧几里得距离)公式:
余弦相似度的计算公式如下:
3)归一化
一般来说,为了比较的方便,都会对得到的结果进行归一化处理:
1)在欧氏距离公式中,取值范围会很大,一般通过如下方式归一化:
sim = 1 / (1 + dist(X,Y))
2)因为余弦值的范围是 [-1,+1] ,相似度计算时一般需要把值归一化到 [0,1],一般通过如下方式:
sim = 0.5 + 0.5 * cosθ
经过归一化处理以后,相似度全部落在了0和1之间,值越大,相似度越高。
4)相似度度量的选择
选择哪种度量方式,没有统一的结论,要依据处理数据的特点来进行确定,可以参考一下知乎上关于这个问题的讨论:http://www.zhihu.com/question/19640394
热门推荐
月季花开在什么季节
电商平台们奔着“每天退货5000万件”去了,这是我们想要的么?
小程序设计和开发:如何明确目标和探索用户需求?
“3·15”反诈提醒:电信网络诈骗套路全解析
哈佛大学研究:吃黑巧克力不胖人,还能预防糖尿病?风险降低21%
如何制作一部高质量的音乐视频:从创意构思到发布推广的全流程解析?
合同撰写完全指南:从基本要求到特殊应用
丹参酮的功效与作用
血透患者内瘘血肿淤青的处理小妙招
“正确护理破皮伤口的方法及建议”
企业降本增效之路:策略、案例与成果展示
屏幕触控IC芯片的作用及其重要性
银行的银证转账的手续费收取标准?
在线测试网速:全面了解与提升网络速度的方法
明清之际历史评价标准的突破
公司注销全攻略:注册资本处理、债务清算及费用详解
民间借贷纠纷到法院诉讼所需证据材料
什么样的浮漂好用?钓鱼选浮漂的4个标准
世界标准刷牙姿势 - 巴氏(Bass)刷牙法
如何查看服务器连接状态?
客户信任的定义、重要性,以及获得客户信任的5种方法
如何提升生产线管理效率?关键四步骤。加入 AI 影像辨识,管理再升级
工厂设备精益改善提案
第50个!韶关丹霞山发现全新大型真菌
高性能与低功耗兼顾:选购笔记本必备指南
SaaS与OP的数据安全对比
澳洲两座城市包揽全球最佳美食目的地前两名
延胡索的功效与作用
淘宝食品经营许可证怎么办理?需要什么材料?办理食品经营许可证的必备条件你知道吗?
农村修房上梁习俗与吉祥语