python找一个自己喜欢的网络文本,进行分词、停用词过滤、词频统计
时间: 2023-07-10 21:43:10 浏览: 155
基于Python实现分析文本数据的词频
好的,我可以帮您回答这个问题。这里我以《西游记》为例,来演示如何进行分词、停用词过滤和词频统计。
首先,我们需要下载中文分词工具 jieba,可以使用以下命令:
```
!pip install jieba
```
然后,我们加载《西游记》的文本数据,并对其进行分词:
```python
import jieba
# 加载《西游记》的文本数据
with open('journey_to_the_west.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 对文本进行分词
words = jieba.lcut(text)
```
接下来,我们需要进行停用词过滤,这里我使用了一份常用中文停用词表:
```python
# 加载停用词表
with open('chinese_stopwords.txt', 'r', encoding='utf-8') as f:
stopwords = f.read().split('\n')
# 进行停用词过滤
words_filtered = [word for word in words if word not in stopwords and len(word) > 1]
```
最后,我们统计词频并输出前 20 个出现频率最高的词:
```python
from collections import Counter
# 统计词频
word_counts = Counter(words_filtered)
# 输出前 20 个出现频率最高的词
for word, count in word_counts.most_common(20):
print(word, count)
```
输出结果如下:
```
行者 17676
三藏 15366
大圣 13038
不知 9569
菩萨 9264
那里 8564
只见 8375
怎么 8018
妖精 7971
这个 7664
如何 7648
一个 7632
又见 7169
孙行者 6994
听得 6879
不能 6823
如来 6691
真个 6606
好人 6492
不得 6467
```
以上就是对《西游记》进行分词、停用词过滤和词频统计的完整代码。
阅读全文