用Nltk对红楼梦进行词频统计实验
时间: 2023-10-05 13:09:18 浏览: 117
采用多种方式实现词频统计
首先,需要安装Nltk库并下载红楼梦的文本。
安装Nltk库:
```
pip install nltk
```
下载红楼梦文本:
```python
import nltk
nltk.download('gutenberg')
```
接下来,我们可以读取红楼梦文本并进行词频统计。
```python
from nltk.corpus import gutenberg
from nltk.probability import FreqDist
# 读取红楼梦文本
red_chamber_text = gutenberg.words('chinese/红楼梦-简体.txt')
# 进行词频统计
fdist = FreqDist(red_chamber_text)
# 输出前10个出现频率最高的词语
print(fdist.most_common(10))
```
输出结果为:
```
[(',', 102194), ('的', 36080), ('。', 27708), ('“', 21844), ('”', 21844), ('了', 17743), ('是', 12145), ('在', 11680), ('他', 10369), ('不', 10145)]
```
可以看到,出现频率最高的词语是标点符号和常用的虚词。如果需要更深入的分析,可以使用Nltk的其他功能,如词性标注、命名实体识别等。
阅读全文