jieba库如何去除停用词
时间: 2023-12-21 16:24:18 浏览: 149
jieba库提供了一个内置的停用词词典,可以用来去除文本中的停用词。具体步骤如下:
1. 导入jieba库和停用词词典:
```python
import jieba
from jieba import analyse
# 加载停用词词典
jieba.analyse.set_stop_words("stopwords.txt")
```
其中,`stopwords.txt`是一个文本文件,里面包含了需要去除的停用词。
2. 分词并去除停用词:
```python
text = "中华人民共和国成立了!"
seg_list = jieba.cut(text, cut_all=False)
# 去除停用词
word_list = [word for word in seg_list if word not in jieba.analyse.get_stop_words()]
```
这样,`word_list`中就包含了去除停用词后的分词结果。
阅读全文