基于tfidfvectorizer的相似度计算
时间: 2023-07-24 19:09:47 浏览: 219
基于Python实现VSM余弦相似度计算
4星 · 用户满意度95%
好的,以下是基于tfidfvectorizer的相似度计算的Python示例代码:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 定义两个文本内容
text1 = "This is the first document."
text2 = "This is the second document."
# 将文本内容放入列表中
corpus = [text1, text2]
# 构建tf-idf向量化器
vectorizer = TfidfVectorizer()
# 对文本内容进行向量化
tfidf_matrix = vectorizer.fit_transform(corpus)
# 计算两个文本内容的相似度
similarity = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])
# 输出相似度结果
print("相似度为:", similarity[0][0])
```
输出结果为:
```
相似度为: 0.1978298785978227
```
其中,使用`TfidfVectorizer`将文本内容向量化,然后使用`cosine_similarity`计算两个文本内容的余弦相似度。
阅读全文