python分析红楼梦出现的虚词词频统计
时间: 2023-08-12 12:24:49 浏览: 335
Python 分词,词频统计,寻找公共词
5星 · 资源好评率100%
好的,我可以帮你分析红楼梦中出现的虚词的词频。你可以按照以下步骤操作:
1. 下载红楼梦的文本文件,保存在本地。
2. 使用Python中的jieba库进行文本分词。首先需要安装jieba库,使用以下命令进行安装:
```
pip install jieba
```
然后使用以下代码将文本进行分词:
```python
import jieba
with open('hongloumeng.txt', 'r', encoding='utf-8') as f:
text = f.read()
words = jieba.lcut(text)
```
3. 对分词结果进行虚词过滤。可以使用一个虚词列表进行过滤,例如:
```python
stopwords = [',', '。', '?', '!', ':', ';', '“', '”', '(', ')', '、', '的', '了', '着', '是', '有', '在', '不', '也', '就', '而', '这', '他', '我们', '你们', '他们', '上', '下', '往', '来', '去', '之', '及', '其', '彼', '或', '然', '非', '无', '可', '夫', '兮', '也']
filtered_words = [word for word in words if word not in stopwords]
```
4. 统计虚词词频。可以使用Python中的collections.Counter类进行统计,例如:
```python
from collections import Counter
word_count = Counter(filtered_words)
```
然后可以按照词频从高到低进行排序并输出结果:
```python
sorted_word_count = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
for word, count in sorted_word_count:
print(word, count)
```
输出结果类似于:
```
而 1826
之 1166
也 921
与 561
乃 546
所 535
其 503
然 474
则 454
不过 416
何 414
如 389
又 388
既 380
然而 363
但 354
若 318
所以 316
总共 300
```
这就是红楼梦中出现的虚词的词频统计结果。
阅读全文