4、 jieba库的分词原理是利用一个中文词库,将待分词的文本与分词词库比对,通过图结构和动态规划方法找到最大概率的词组。利用jieba库统计《三国演义》前60回中的高频词。
时间: 2024-05-11 21:20:24 浏览: 51
对中国四大名著-红楼梦 使用jieba进行分词处理 排除去停词 统计完整词频并按降序排列 前20词绘制词云图
5星 · 资源好评率100%
好的,以下是使用jieba库统计《三国演义》前60回中的高频词的Python代码:
```python
import jieba
from collections import Counter
# 读取《三国演义》前60回的文本
with open('sgyy.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 使用jieba进行分词
words = jieba.lcut(text)
# 统计词频
word_counts = Counter(words)
# 获取前50个高频词
top50_words = word_counts.most_common(50)
# 输出结果
for word, count in top50_words:
print(word, count)
```
其中,`jieba.lcut(text)`会将`text`文本进行分词,返回一个分词后的词语列表。`Counter(words)`会对这个列表进行统计词频,返回一个字典,其中key是词语,value是出现的次数。`most_common(50)`会返回出现频率最高的50个词语及其出现的次数。
阅读全文