以红楼梦为例分词并统计词频
时间: 2023-07-11 09:44:02 浏览: 111
好的,我可以帮你完成这个任务。需要先下载并安装中文分词工具jieba,然后使用Python代码实现分词和词频统计。
以下是代码实现:
```python
import jieba
from collections import Counter
# 读取红楼梦文本
with open('hongloumeng.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 使用jieba分词
seg_list = jieba.cut(text)
# 去除停用词
stopwords = [',', '。', '?', '!', '、', ':', ';', '(', ')', '《', '》', '“', '”', '\n']
seg_list = [word for word in seg_list if word not in stopwords]
# 统计词频
word_count = Counter(seg_list)
# 输出前20个高频词
for word, count in word_count.most_common(20):
print(word, count)
```
解释说明:
1.首先使用Python内置的open函数读取红楼梦文本。
2.使用jieba.cut函数进行分词,并将分词结果存储在一个列表中。
3.定义一个停用词列表,去除其中的停用词。
4.使用collections.Counter函数对分词后的列表进行词频统计。
5.输出前20个高频词。
注意:这里的红楼梦文本需要提前准备好,放在与代码同一目录下,并命名为hongloumeng.txt。
阅读全文