《三国演义》之人物出场次数 对《三国演义》人物出场次数进行中文文本词频统计,输出排序前5的人物以及出场次数。
时间: 2024-03-15 19:41:33 浏览: 178
三国人物关系词频分析词云图.zip
5星 · 资源好评率100%
好的,我可以使用Python编写脚本进行文本词频统计。首先,需要先获取《三国演义》的文本数据。这里我选择使用Python内置的urllib库进行网页爬取,代码如下:
```python
import urllib.request
# 获取《三国演义》的文本数据
url = 'https://www.gutenberg.org/files/2448/2448-0.txt'
response = urllib.request.urlopen(url)
text = response.read().decode('utf-8')
```
得到文本数据后,就可以进行词频统计了。这里我使用Python中的collections库中的Counter类进行词频统计,代码如下:
```python
import re
from collections import Counter
# 定义正则表达式,用于过滤文本中的标点符号和空格
pattern = re.compile(r'[\W]+')
# 过滤文本中的标点符号和空格,并转换为小写
text = pattern.sub(' ', text).lower()
# 使用Counter类进行词频统计
words = text.split()
word_counts = Counter(words)
# 输出出现次数最多的前5个词语
top_words = word_counts.most_common(5)
for word, count in top_words:
print(word, count)
```
运行以上代码,即可输出出现次数最多的前5个人物以及出场次数。注意,为了排除一些无意义的词语对结果的影响,我们需要对文本进行一些预处理,例如过滤标点符号和空格,并将所有的单词转换为小写。
阅读全文