python三国演义人物出场前十统计代码含义
时间: 2023-07-09 22:34:07 浏览: 103
分析三国演义和红楼梦,进行中文分词,统计人物出场频次,生成词云图
以下是Python代码实现:
```python
# 导入必要的库和数据
import jieba
from collections import Counter
with open("sanguo.txt", "r", encoding="utf-8") as f:
content = f.read()
# 分词并去除停用词
stopwords = [line.strip() for line in open('stopwords.txt', 'r', encoding='utf-8').readlines()]
words = [word for word in jieba.cut(content) if word not in stopwords and len(word) > 1]
# 统计前十人物出场次数
top10 = Counter(words).most_common(10)
for i, item in enumerate(top10):
print("第{}名: {},出现{}次".format(i+1, item[0], item[1]))
```
代码含义:
1. 导入必要的库和数据:导入`jieba`分词库和`collections`中的`Counter`计数器,同时读入三国演义的文本文件`sanguo.txt`。
2. 分词并去除停用词:使用`jieba`分词将文本内容拆分为单个词语,并去除停用词。
3. 统计前十人物出场次数:使用`Counter`计数器统计每个词语出现的次数,并取出前十个出现次数最多的词语,即前十个人物,最后输出其出现次数。其中,`most_common()`方法可以根据元素出现的次数,从大到小返回一个包含元素及其计数的列表。
阅读全文