python三国演义词频统计
时间: 2023-09-11 17:04:59 浏览: 85
基于python的三国演义词频分析
好的,可以使用Python中的jieba库进行中文分词和词频统计。
首先,需要安装jieba库。可以使用以下命令安装:
```
pip install jieba
```
接下来,我们需要获取《三国演义》的文本。可以从网络上下载《三国演义》的txt文件,或者直接使用以下代码将《三国演义》从项目文件夹中读取出来:
```python
with open('sanguoyanyi.txt', 'r', encoding='utf-8') as f:
content = f.read()
```
接下来,我们可以对文本进行分词。使用jieba库可以很容易地实现:
```python
import jieba
# 分词
words = jieba.lcut(content)
```
接下来,我们可以统计每个词出现的次数:
```python
from collections import Counter
# 统计词频
word_counts = Counter(words)
```
最后,我们可以输出出现频率最高的前10个词语及其出现次数:
```python
# 输出出现频率前10的词语及其出现次数
for word, count in word_counts.most_common(10):
print(word, count)
```
完整代码如下:
```python
import jieba
from collections import Counter
# 读取《三国演义》文本
with open('sanguoyanyi.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 分词
words = jieba.lcut(content)
# 统计词频
word_counts = Counter(words)
# 输出出现频率前10的词语及其出现次数
for word, count in word_counts.most_common(10):
print(word, count)
```
注意,在上述代码中,需要将`sanguoyanyi.txt`文件放在同级目录下。
阅读全文