python利用jieba水浒传
时间: 2023-07-07 11:43:39 浏览: 180
可以使用jieba库对《水浒传》进行分词和统计分析。具体步骤如下:
1. 下载《水浒传》文本文件。
2. 使用Python的`open()`函数打开文件,读取文本内容。
3. 使用jieba库对文本进行分词,得到分词结果。
4. 对分词结果进行统计分析,如统计词频、词性、关键词等。
5. 可以使用Python的matplotlib库对分析结果进行可视化展示。
下面是一个简单的示例代码:
```python
import jieba
from collections import Counter
import matplotlib.pyplot as plt
# 读取《水浒传》文本文件
with open('shuihuzhuan.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 对文本进行分词
words = jieba.lcut(content)
# 统计词频
word_counts = Counter(words)
top_words = word_counts.most_common(20) # 取出出现频率前20的词
# 可视化展示
x, y = [], []
for word, count in top_words:
x.append(word)
y.append(count)
plt.bar(x, y)
plt.xticks(rotation=90)
plt.show()
```
这段代码使用jieba对《水浒传》进行了分词,并统计了词频,最后使用matplotlib库将结果可视化展示出来。需要注意的是,由于《水浒传》的文本文件较大,分词和统计分析的时间可能会比较长。
阅读全文