用python代码实现对去停用词的文档进行词频统计,即统计每个词出现的次数,并实现次数的由大到小排序
时间: 2023-06-10 21:05:59 浏览: 84
可以使用Python中的nltk库来进行去停用词和词频统计。以下是一个简单的示例代码:
```python
import nltk
from nltk.corpus import stopwords
from collections import Counter
# 读取文本并分词
with open('example.txt', 'r') as f:
text = f.read()
tokens = nltk.word_tokenize(text)
# 去停用词
stop_words = set(stopwords.words('english'))
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
# 统计词频
word_count = Counter(filtered_tokens)
# 按词频由大到小排序
sorted_word_count = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
# 输出结果
for word, count in sorted_word_count:
print(word, count)
```
其中,`example.txt`是要进行词频统计的文本文件。首先通过`nltk.word_tokenize()`函数进行分词,然后使用NLTK库中提供的英文停用词集合去除停用词。接着使用Python的`collections.Counter()`函数统计词频,最后使用Python的`sorted()`函数按词频由大到小排序。
阅读全文