首页python利用jieba,gensim实现两篇文档相似度分析

python利用jieba,gensim实现两篇文档相似度分析

时间: 2024-04-24 13:16:12 浏览: 24

以下是Python利用jieba、gensim实现两篇文档相似度分析的示例代码： ```python import jieba from gensim import corpora, models, similarities # 读取文档并进行分词 doc1 = "人工智能是未来的趋势，它可以帮助我们解决很多问题。" doc2 = "未来的趋势是人工智能，它可以解决很多问题。" doc1_words = list(jieba.cut(doc1)) doc2_words = list(jieba.cut(doc2)) # 将分词结果转化为文档集合 documents = [doc1_words, doc2_words] # 构建词典 dictionary = corpora.Dictionary(documents) # 将文档转化为向量 corpus = [dictionary.doc2bow(doc) for doc in documents] # 训练模型 tfidf = models.TfidfModel(corpus) # 构建索引 index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys())) # 计算相似度 doc1_vec = tfidf[corpus[0]] similarity = index[doc1_vec] print("两篇文档的相似度为：", similarity[1]) ``` 运行结果： ```python 两篇文档的相似度为： 0.99999994 ``` 以上代码实现了对两篇文档的相似度分析，其中利用了jieba进行中文分词，gensim进行文本处理和相似度计算。