中文本文实现文本相似度计算的代码
时间: 2024-02-06 10:10:38 浏览: 126
中文文本相似度匹配算法
以下是Python代码实现,需要使用jieba、sklearn等库:
```python
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 分词
def cut_words(text):
words = jieba.cut(text)
return ' '.join(words)
# 计算文本相似度
def get_similarity(text1, text2):
# 分词
words1 = cut_words(text1)
words2 = cut_words(text2)
# 向量化
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform([words1, words2])
# 计算余弦相似度
similarity = cosine_similarity(X[0], X[1])
return similarity[0][0]
```
以上代码中,我们使用了jieba对文本进行分词,并使用sklearn的TfidfVectorizer将文本向量化,最后使用余弦相似度计算文本相似度。请注意,如果需要比较多篇文本的相似度,可以将分词和向量化过程单独处理,避免重复计算。
阅读全文