问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

NLP中的余弦相似度 Cosine similarity 是什么,如何计算

创作时间:
2025-01-22 05:44:07
作者:
@小白创作中心

NLP中的余弦相似度 Cosine similarity 是什么,如何计算

在自然语言处理(NLP)领域,余弦相似度是一种常用的距离度量方法,用于衡量两个向量之间的相似程度。这种方法在文本相似度计算、信息检索和推荐系统等领域有着广泛的应用。本文将详细介绍余弦相似度的概念及其计算方法。

余弦相似度 Cosine similarity

为了衡量两个词的相似程度,我们需要一种方法来度量这两个词对应的嵌入向量之间的相似度。给定向量 (u) 和 (v),余弦相似度定义如下:

  • 分子:(u) 和 (v) 的点积(或内积)
  • 分母:向量 (u) 和 (v) 的范式(或长度)相乘

计算结果即为向量 (u) 和 (v) 之间夹角 (\theta) 的余弦值,也就是两个向量的相似度。

余弦值的范围是 -1~1,其中:

  • 1 对应完全正相关
  • -1 对应完全负相关
  • 0 对应完全不相关

其中,向量范式的计算公式为:向量中每个元素的平方和开根号。

本文原文来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号