python编程对《三国演义》进行词频分析,统计出出场次数出现最多的前20个词的结果
时间: 2025-02-22 09:32:34 浏览: 21
在Python中进行《三国演义》的词频分析,通常我们会使用自然语言处理库如jieba分词,然后结合collections模块的Counter函数来计算每个词语的出现频率。以下是简单的步骤:
- 数据预处理:
- 首先,需要获取《三国演义》的文本数据,可以是从网络下载电子版,也可以是一个已经清洗过的文本文件。
- 使用
jieba
对文本进行分词,这个库能较好地处理中文。
import jieba.analyse
from collections import Counter
with open('三国演义.txt', 'r', encoding='utf-8') as f:
text = f.read()
- 词频统计:
- 使用
jieba.lcut()
分词,并去除停用词,保留关键词。 jieba.analyse.textrank()
可以得到基于TF-IDF算法的关键词,这里也可以考虑是否使用。
- 使用
words = [word for word in jieba.cut(text) if not word in jieba.stop_words]
counter = Counter(words)
- 排序和结果提取:
- 对计数器按照值降序排列,选择出现次数最多的前20个词。
top_20_words = counter.most_common(20)
- 打印结果:
- 打印出词和对应的出现次数。
for word, freq in top_20_words:
print(f"{word}: {freq}")
相关推荐


















