jieba stopwordslist()
时间: 2023-06-23 16:53:23 浏览: 91
stopwordlist.txt
在使用 jieba 库进行中文自然语言处理时,可以使用 `jieba.analyse.set_stop_words()` 方法设置停用词表。如果要使用自定义的停用词表,可以创建一个文本文件,在文件中填写需要添加的停用词,每个词占一行,然后使用 `jieba.analyse.set_stop_words()` 方法将文件路径作为参数传入。具体步骤如下:
1. 创建一个文本文件,例如 `stopwords.txt`,在其中填写需要添加的停用词,每个词占一行,例如:
```
的
了
是
不
```
2. 在 Python 代码中使用 `jieba.analyse.set_stop_words()` 方法设置停用词表,例如:
```python
import jieba
# 设置停用词表
jieba.analyse.set_stop_words('stopwords.txt')
# 对文本进行分词
text = '今天天气真好,适合出门散步。'
words = jieba.cut(text)
# 输出分词结果
for word in words:
print(word)
```
在这个例子中,我们通过 `jieba.analyse.set_stop_words()` 方法将停用词表设置为 `stopwords.txt` 文件中的单词。然后,我们对文本进行分词,并打印每个分词结果。由于停用词表中包含了 `'的'`, `'了'`, `'是'`, `'不'` 这些单词,因此这些单词在分词结果中被过滤掉了。
阅读全文