利用nltk统计文档中各单词出现的次数
时间: 2023-11-17 21:04:21 浏览: 90
PYTHON自然语言处理中文翻译 NLTK Natural Language Processing with Python 中文版
5星 · 资源好评率100%
以下是一个使用nltk统计文档中各单词出现次数的示例代码:
```python
import nltk
from nltk.tokenize import word_tokenize
from collections import Counter
# 读取文本文件
with open('example.txt', 'r') as file:
text = file.read()
# 分词
words = word_tokenize(text)
# 统计单词出现次数
word_counts = Counter(words)
# 输出前10个出现次数最多的单词
for word, count in word_counts.most_common(10):
print(word, count)
```
在代码中,首先使用 `open()` 函数读取文本文件,然后使用 `word_tokenize()` 函数将文本分词为单词列表。接着,使用 `Counter()` 函数统计每个单词出现的次数,并将结果存储在 `word_counts` 变量中。最后,使用 `most_common()` 方法输出出现次数最多的前10个单词及其出现次数。
阅读全文