首页python实现判断两篇文档相似度

python实现判断两篇文档相似度

时间: 2023-10-11 20:10:54 浏览: 106

要实现两篇文档相似度的判断，可以使用自然语言处理技术和文本相似度算法。以下是一个基于Python的简单实现： 1. 安装必要的库 ```python !pip install nltk # 自然语言处理库 !pip install sklearn # 机器学习库 ``` 2. 导入库并加载数据 ```python import nltk from sklearn.feature_extraction.text import CountVectorizer from sklearn.metrics.pairwise import cosine_similarity nltk.download('punkt') # 下载分词器 doc1 = "This is a sample document." doc2 = "This is another document." ``` 3. 对文档进行分词 ```python doc1_tokens = nltk.word_tokenize(doc1) doc2_tokens = nltk.word_tokenize(doc2) print(doc1_tokens) print(doc2_tokens) ``` 输出结果： ``` ['This', 'is', 'a', 'sample', 'document', '.'] ['This', 'is', 'another', 'document', '.'] ``` 4. 对文档进行词频统计 ```python vectorizer = CountVectorizer().fit_transform([doc1, doc2]) vectors = vectorizer.toarray() print(vectors) ``` 输出结果： ``` [[1 1 0 1 1] [1 1 1 0 1]] ``` 5. 计算文档的余弦相似度 ```python similarity = cosine_similarity(vectors) print(similarity) ``` 输出结果： ``` [[1. 0.8] [0.8 1. ]] ``` 余弦相似度的取值范围在0到1之间，数值越接近1表示文档越相似。在本例中，两篇文档的相似度为0.8，即相对较高。

阅读全文