python nlp 字符串余弦相似度
时间: 2023-10-05 17:09:18 浏览: 185
余弦相似度算法(python代码)
5星 · 资源好评率100%
在Python中,可以使用scikit-learn库来计算两个文本字符串之间的余弦相似度。具体步骤如下:
1. 导入必要的库
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
```
2. 定义两个文本字符串
```python
text1 = "Hello World!"
text2 = "Hello Python!"
```
3. 将两个文本字符串转换为向量表示
```python
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform([text1, text2])
```
4. 计算两个向量之间的余弦相似度
```python
cosine_similarity(vectors[0], vectors[1])[0][0]
```
这里的输出值为0.0,表示两个文本字符串之间的余弦相似度为0。如果输出值越接近1,则表示两个文本字符串越相似。
阅读全文