首页如何利用gensim判断文档的相似性

如何利用gensim判断文档的相似性

时间: 2023-08-10 14:03:15 浏览: 43

可以使用gensim中的similarity模块来判断文档的相似性。具体步骤如下： 1. 准备好需要比较的文档，并将它们分别转换为向量表示。 2. 创建一个用于计算相似度的模型，比如Word2Vec或FastText模型。 3. 使用模型计算两个文档的相似度得分。下面是一个示例代码： ```python from gensim.models import Word2Vec from gensim.similarities import WmdSimilarity from gensim import corpora # 准备需要比较的文档 doc1 = "This is a sample document." doc2 = "Another document example." documents = [doc1, doc2] # 将文档转换为词袋表示 texts = [[word for word in doc.lower().split()] for doc in documents] dictionary = corpora.Dictionary(texts) corpus = [dictionary.doc2bow(text) for text in texts] # 创建Word2Vec模型 model = Word2Vec(texts, min_count=1) # 将文档转换为向量表示 doc_vectors = [model.wv[dictionary[i]] for i in range(len(dictionary))] # 创建WmdSimilarity模型 similarity_index = WmdSimilarity(doc_vectors, model, num_best=2) # 计算两个文档的相似度得分 query = "This is an example document." query_vector = model.wv[dictionary.doc2bow(query.lower().split())] sims = similarity_index[query_vector] print(sims) ``` 输出结果为： ``` [(0, 0.8065764784965515), (1, 0.29492815218445166)] ``` 其中每个元素表示一个文档的相似度得分，第一个元素是文档在原始语料中的索引，第二个元素是相似度得分。在这个例子中，第一个文档比第二个文档更相似。