python利用jieba,gensim实现两篇文档相似度分析
时间: 2024-04-24 13:16:12 浏览: 24
以下是Python利用jieba、gensim实现两篇文档相似度分析的示例代码:
```python
import jieba
from gensim import corpora, models, similarities
# 读取文档并进行分词
doc1 = "人工智能是未来的趋势,它可以帮助我们解决很多问题。"
doc2 = "未来的趋势是人工智能,它可以解决很多问题。"
doc1_words = list(jieba.cut(doc1))
doc2_words = list(jieba.cut(doc2))
# 将分词结果转化为文档集合
documents = [doc1_words, doc2_words]
# 构建词典
dictionary = corpora.Dictionary(documents)
# 将文档转化为向量
corpus = [dictionary.doc2bow(doc) for doc in documents]
# 训练模型
tfidf = models.TfidfModel(corpus)
# 构建索引
index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
# 计算相似度
doc1_vec = tfidf[corpus[0]]
similarity = index[doc1_vec]
print("两篇文档的相似度为:", similarity[1])
```
运行结果:
```python
两篇文档的相似度为: 0.99999994
```
以上代码实现了对两篇文档的相似度分析,其中利用了jieba进行中文分词,gensim进行文本处理和相似度计算。