python对《西游记》中出现的人物进行统计,将出现频率最高的八项输出
时间: 2024-10-15 13:15:45 浏览: 264
Python可以使用文本处理库如NLTK、jieba(针对中文)或者正则表达式来分析《西游记》文本,并通过字典数据结构存储每个字符的出现次数。首先需要获取《西游记》的文本数据,通常可以从网络上抓取电子版或者直接读取已存在的txt文件。
以下是简单的步骤:
1. **数据获取**:
- 下载或找到《西游记》的电子文本,保存为`.txt`或`.html`等格式。
- 使用Python的`requests`库从在线资源获取并保存到本地。
2. **文本预处理**:
- 使用`open()`函数打开文件,读取内容。
- 对文本进行分词处理,如果是中文,则使用jieba库。
```python
import jieba.analyse
# 分词处理
text = open('westward_journey.txt', 'r').read()
words = [word for word in jieba.cut(text)]
```
3. **统计频率**:
- 创建一个空字典来存储每个词语及其出现次数。
- 遍历单词列表,更新字典。
```python
word_freq = {}
for word in words:
if word in word_freq:
word_freq[word] += 1
else:
word_freq[word] = 1
```
4. **找出前八高频词汇**:
- 将字典转换为列表,然后按值排序。
- 取出排名前八的键值对。
```python
top_8_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)[:8]
```
5. **输出结果**:
- 打印出出现频率最高的八项。
```python
for word, freq in top_8_words:
print(f'{word}: {freq}')
```
阅读全文