编写程序,完成水浒传前70回中前5个高频词统计
时间: 2023-12-21 15:04:24 浏览: 73
高频词统计
以下是一种Python实现方式:
```python
# 读取文本
with open('shuihuzhuan.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 去除标点符号
import string
text = text.translate(str.maketrans('', '', string.punctuation))
# 分词
import jieba
words = jieba.lcut(text)
# 统计词频
from collections import Counter
word_counts = Counter(words)
# 排序并输出前5个高频词
top_words = word_counts.most_common(5)
for word, count in top_words:
print(word, count)
```
需要注意的是,这里使用了jieba分词库和collections.Counter类,如果没有安装的话需要先进行安装。对于文本的处理,我们去除了所有标点符号,这样可以更准确地统计高频词。最后,我们使用most_common方法来获取词频最高的5个词,并输出它们的出现次数。
阅读全文