python 余弦相似性_数据挖掘:度量数据的相似性和相异性
时间: 2024-02-22 21:58:25 浏览: 86
python 余弦相似度算法
Python中的余弦相似度是一种用于比较两个向量相似性的指标。它可以用于度量数据的相似性和相异性,适用于许多数据挖掘问题。
余弦相似度的计算方法是将两个向量点积除以它们的模长乘积,即:
cosine_similarity = (a · b) / (||a|| * ||b||)
其中a和b是两个向量,a · b表示它们的点积,||a||和||b||分别表示它们的模长。
在Python中,可以使用scikit-learn库的cosine_similarity函数来计算余弦相似度。这个函数需要输入两个向量,它会返回它们的余弦相似度值。
以下是一个示例代码,展示如何使用Python计算余弦相似度:
```python
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
# 定义两个向量
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
# 计算余弦相似度
similarity = cosine_similarity([a, b])
print(similarity)
```
输出结果为:
```
[[1. 0.97463185]
[0.97463185 1. ]]
```
这个结果表示,向量a和向量b的余弦相似度为0.97463185。
阅读全文