首页1、计算data1.txt 、data2.txt 、data3.txt这三篇文档之间的相似度，python文本分析代码

1、计算data1.txt 、data2.txt 、data3.txt这三篇文档之间的相似度，python文本分析代码

时间: 2024-06-15 21:08:51 浏览: 13

要计算三篇文档之间的相似度，可以使用Python中的文本分析库，如nltk或gensim。以下是一个示例代码，使用gensim库计算文档相似度： ```python from gensim import corpora, models, similarities # 读取文档 documents = [] for i in range(1, 4): with open(f"data{i}.txt", "r") as f: documents.append(f.read()) # 对文档进行预处理，如分词、去除停用词等 # ... # 创建语料库 texts = [doc.split() for doc in documents] dictionary = corpora.Dictionary(texts) corpus = [dictionary.doc2bow(text) for text in texts] # 计算TF-IDF模型 tfidf = models.TfidfModel(corpus) corpus_tfidf = tfidf[corpus] # 计算文档相似度 index = similarities.MatrixSimilarity(corpus_tfidf) sims = index[corpus_tfidf] # 输出相似度矩阵 for i in range(len(documents)): for j in range(len(documents)): print(f"文档{i+1}与文档{j+1}的相似度为：{sims[i][j]}") ``` 请注意，上述代码只是一个示例，具体的文本预处理和相似度计算方法可以根据实际需求进行调整。另外，需要安装gensim库才能运行以上代码。