【中文词频统计】《三国演义》人物出场统计
时间: 2023-07-02 11:12:18 浏览: 203
我们可以通过Python来统计《三国演义》中人物出现的次数,具体实现过程如下:
```python
import jieba
# 读取文件内容
with open('sgyy.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 使用jieba分词进行分词
words = jieba.cut(content)
# 统计每个人物出现的次数
person_counts = {}
for word in words:
# 去除空格和换行符
word = word.strip()
if len(word) < 2:
continue
if word in person_counts:
person_counts[word] += 1
else:
person_counts[word] = 1
# 按照出现次数从大到小排序
sorted_person_counts = sorted(person_counts.items(), key=lambda x: x[1], reverse=True)
# 输出前20个出现次数最多的人物
for person, count in sorted_person_counts[:20]:
print(person, count)
```
在上述代码中,我们首先读取了《三国演义》的文本文件内容,并使用jieba分词对其进行分词。接着,我们统计每个人物出现的次数,并对其出现次数进行排序。最后,我们输出前20个出现次数最多的人物。
需要注意的是,在中文文本处理中,需要使用分词工具对文本进行分词,才能准确地统计每个单词的出现次数。在这里,我们使用了jieba分词工具。同时,由于中文人名通常由两个及以上的汉字组成,因此我们在统计人物出现次数时,将长度小于2的词去除。
阅读全文