1、 计算data1.txt 、data2.txt 、data3.txt这三篇文档之间的相似度,python文本分析代码
时间: 2024-06-15 21:08:51 浏览: 13
要计算三篇文档之间的相似度,可以使用Python中的文本分析库,如nltk或gensim。以下是一个示例代码,使用gensim库计算文档相似度:
```python
from gensim import corpora, models, similarities
# 读取文档
documents = []
for i in range(1, 4):
with open(f"data{i}.txt", "r") as f:
documents.append(f.read())
# 对文档进行预处理,如分词、去除停用词等
# ...
# 创建语料库
texts = [doc.split() for doc in documents]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
# 计算TF-IDF模型
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
# 计算文档相似度
index = similarities.MatrixSimilarity(corpus_tfidf)
sims = index[corpus_tfidf]
# 输出相似度矩阵
for i in range(len(documents)):
for j in range(len(documents)):
print(f"文档{i+1}与文档{j+1}的相似度为:{sims[i][j]}")
```
请注意,上述代码只是一个示例,具体的文本预处理和相似度计算方法可以根据实际需求进行调整。另外,需要安装gensim库才能运行以上代码。