python机器学习计算中文文本相似度代码
时间: 2023-08-07 15:02:56 浏览: 104
(基于python的毕业设计)文本相似度计算系统(源码+说明+演示视频).zip
以下是使用Python计算中文文本相似度的示例代码:
```python
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 分词
def cut_text(text):
return ' '.join(jieba.cut(text))
# 计算相似度
def calculate_similarity(text1, text2):
# 分词
cut_text1 = cut_text(text1)
cut_text2 = cut_text(text2)
# 构建TF-IDF向量
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform([cut_text1, cut_text2])
# 计算余弦相似度
similarity = cosine_similarity(tfidf)[0][1]
return similarity
# 示例
text1 = '这是一个中文文本。'
text2 = '这是另一个中文文本。'
similarity = calculate_similarity(text1, text2)
print('相似度:', similarity)
```
上述代码使用了jieba库进行中文分词,利用TF-IDF向量和余弦相似度计算中文文本相似度。需要注意的是,中文文本相似度计算的难点在于中文分词,需要使用专门的中文分词工具进行处理。
阅读全文