python对《西游记》中出现的人物进行统计,将出现频率最高的八项输出
时间: 2024-10-15 22:15:45 浏览: 418
Python可以使用文本处理库如NLTK、jieba(针对中文)或者正则表达式来分析《西游记》文本,并通过字典数据结构存储每个字符的出现次数。首先需要获取《西游记》的文本数据,通常可以从网络上抓取电子版或者直接读取已存在的txt文件。
以下是简单的步骤:
数据获取:
- 下载或找到《西游记》的电子文本,保存为
.txt
或.html
等格式。 - 使用Python的
requests
库从在线资源获取并保存到本地。
- 下载或找到《西游记》的电子文本,保存为
文本预处理:
- 使用
open()
函数打开文件,读取内容。 - 对文本进行分词处理,如果是中文,则使用jieba库。
- 使用
import jieba.analyse
# 分词处理
text = open('westward_journey.txt', 'r').read()
words = [word for word in jieba.cut(text)]
- 统计频率:
- 创建一个空字典来存储每个词语及其出现次数。
- 遍历单词列表,更新字典。
word_freq = {}
for word in words:
if word in word_freq:
word_freq[word] += 1
else:
word_freq[word] = 1
- 找出前八高频词汇:
- 将字典转换为列表,然后按值排序。
- 取出排名前八的键值对。
top_8_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)[:8]
- 输出结果:
- 打印出出现频率最高的八项。
for word, freq in top_8_words:
print(f'{word}: {freq}')
相关推荐

















