python词频统计西游记
时间: 2024-06-03 08:06:32 浏览: 255
Python文本统计功能之西游记用字统计操作示例
Python中可以使用多种方法进行词频统计,常用的是使用Python内置库collections的Counter类。下面是一个示例代码,可以统计《西游记》中出现频率最高的前20个词语及其出现次数:
```
import jieba
from collections import Counter
# 读取文本文件
with open('journey_to_the_west.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 使用jieba分词
words = jieba.cut(text)
# 统计词频
counter = Counter(words)
top_words = counter.most_common(20)
# 输出结果
for word, count in top_words:
print(f'{word}: {count}')
```
需要注意的是,在运行代码前需要安装jieba库,可以使用以下命令进行安装:
```
pip install jieba
```
另外,需要将《西游记》的文本文件(journey_to_the_west.txt)放在与代码同一目录下。
阅读全文