水浒传词频统计python
时间: 2023-12-21 07:32:08 浏览: 150
Python之词频统计
以下是使用Python进行《水浒传》词频统计的示例代码:
```python
import jieba
from collections import Counter
# 读取文本文件
with open('input水浒传.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词
words = jieba.cut(text)
# 去除停用词
stopwords = ['的', '了', '和', '是', '在', '他', '她', '它'] # 停用词列表,可以根据实际情况进行修改
filtered_words = [word for word in words if word not in stopwords]
# 统计词频
word_count = Counter(filtered_words)
# 输出词频结果
for word, count in word_count.most_common(10): # 只输出频率最高的10个词语
print(word, count)
```
这段代码首先使用jieba库对文本进行分词,然后去除停用词,最后使用Counter类统计词频。最后,我们输出频率最高的10个词语及其出现次数。
阅读全文