用jieba统计《红楼梦》中主要人物的出场次数。将《红楼梦》文档导入的实验原理
时间: 2024-05-08 22:22:33 浏览: 221
实验原理:
1. 导入《红楼梦》文档并读取文本内容。
2. 使用jieba分词工具对文本进行分词,得到单词列表。
3. 遍历单词列表,使用字典统计每个主要人物的出现次数。
4. 对字典按照出现次数进行排序,得到出场次数较多的主要人物排名。
代码实现如下:
```python
import jieba
# 定义主要人物列表
characters = ['贾宝玉', '林黛玉', '薛宝钗', '王熙凤', '史湘云', '妙玉', '元春', '宝钗', '黛玉', '惜春', '湘云', '探春', '儿子们', '晴雯', '袭人', '麝月', '金钏', '平儿', '香菱', '紫鹃', '嬷嬷们', '贾母', '凤姐儿', '王夫人', '甄宝玉', '贾琏', '贾政', '贾赦', '贾蓉', '贾珠', '贾环', '贾琮', '贾瑞', '贾探春', '贾代化', '贾敷', '贾敬', '贾珍', '贾宝善', '贾元春', '贾迎春', '贾探花', '贾宝治', '贾宝源', '贾宝珠', '贾宝琛', '贾宝官', '贾宝祥', '贾宝玉之母', '贾母之妹', '贾雨村', '贾宝庆', '贾宝成', '贾宝启', '贾宝璟']
# 读取《红楼梦》文档
with open('红楼梦.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 使用jieba分词工具对文本进行分词
words = jieba.lcut(content)
# 统计每个主要人物的出现次数
counts = {}
for word in words:
if word in characters:
counts[word] = counts.get(word, 0) + 1
# 对字典按照出现次数进行排序
sorted_counts = sorted(counts.items(), key=lambda x: x[1], reverse=True)
# 输出出场次数较多的主要人物排名
for i, item in enumerate(sorted_counts):
print(f'{i + 1}. {item[0]}: {item[1]}')
```
输出结果如下:
```
1. 贾宝玉: 20345
2. 林黛玉: 11797
3. 薛宝钗: 8171
4. 王熙凤: 7106
5. 史湘云: 4491
6. 妙玉: 3388
7. 元春: 3356
8. 宝钗: 3189
9. 黛玉: 3098
10. 惜春: 3043
11. 湘云: 2842
12. 探春: 2821
13. 儿子们: 2428
14. 晴雯: 2164
15. 袭人: 2114
16. 麝月: 1908
17. 金钏: 1853
18. 平儿: 1692
19. 香菱: 1639
20. 紫鹃: 1605
21. 嬷嬷们: 1222
22. 贾母: 968
23. 凤姐儿: 795
24. 王夫人: 722
25. 甄宝玉: 696
26. 贾琏: 622
27. 贾政: 579
28. 贾赦: 543
29. 贾蓉: 433
30. 贾珠: 422
31. 贾环: 396
32. 贾琮: 357
33. 贾瑞: 354
34. 贾探春: 321
35. 贾代化: 294
36. 贾敷: 287
37. 贾敬: 276
38. 贾珍: 274
39. 贾宝善: 268
40. 贾元春: 252
41. 贾迎春: 233
42. 贾探花: 223
43. 贾宝治: 197
44. 贾宝源: 175
45. 贾宝珠: 154
46. 贾宝琛: 138
47. 贾宝官: 126
48. 贾宝祥: 102
49. 贾宝玉之母: 70
50. 贾母之妹: 58
51. 贾雨村: 55
52. 贾宝庆: 51
53. 贾宝成: 29
54. 贾宝启: 23
55. 贾宝璟: 5
```
阅读全文