11

第7-1课:余弦相似度与相似算法(图文篇)

 3 years ago
source link: https://blog.csdn.net/orbit/article/details/108729338
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

相似度算法是计算个体之间相似程度的算法,此类算法多如牛毛,这里我们只讨论用于处理文字之间相似度的算法。文本之间的相似度计算应用广泛,比如论文抄袭的判断,就可以用相似度算法先预筛查一遍;再比如网站的文章自动分类,就是根据相似度将文章自动分入科技、体育、军事等类别中。此外,广告推送、订单识别等场合,也会用到文本相似度的判断。

余弦相似度(余弦距离)

通常用于判断相似度的理论有很多,比如欧氏距离、余弦相似度(余弦距离)、Jaccard 距离、编辑距离等,余弦相似度背后的数学理论就是余弦定理。

983739b0-0fc9-11e9-97a1-b5c0cb989076

图(1)三角形余弦公式

在(欧氏)几何学中,三角形的内角余弦与边长的关系,可以用余弦公式来描述,即:

avatar

在空间向量中(图示以平面向量为例子),两个向量的夹角也可以通过:

a6bfedb0-0fc9-11e9-b42e-390d5c3452ad

图(2)平面向量余弦公式示意图

在空间向量中


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK