python实现判断两篇文档相似度
时间: 2023-10-11 20:10:54 浏览: 106
要实现两篇文档相似度的判断,可以使用自然语言处理技术和文本相似度算法。以下是一个基于Python的简单实现:
1. 安装必要的库
```python
!pip install nltk # 自然语言处理库
!pip install sklearn # 机器学习库
```
2. 导入库并加载数据
```python
import nltk
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
nltk.download('punkt') # 下载分词器
doc1 = "This is a sample document."
doc2 = "This is another document."
```
3. 对文档进行分词
```python
doc1_tokens = nltk.word_tokenize(doc1)
doc2_tokens = nltk.word_tokenize(doc2)
print(doc1_tokens)
print(doc2_tokens)
```
输出结果:
```
['This', 'is', 'a', 'sample', 'document', '.']
['This', 'is', 'another', 'document', '.']
```
4. 对文档进行词频统计
```python
vectorizer = CountVectorizer().fit_transform([doc1, doc2])
vectors = vectorizer.toarray()
print(vectors)
```
输出结果:
```
[[1 1 0 1 1]
[1 1 1 0 1]]
```
5. 计算文档的余弦相似度
```python
similarity = cosine_similarity(vectors)
print(similarity)
```
输出结果:
```
[[1. 0.8]
[0.8 1. ]]
```
余弦相似度的取值范围在0到1之间,数值越接近1表示文档越相似。在本例中,两篇文档的相似度为0.8,即相对较高。
阅读全文
相关推荐



















