jieba中文停用词表怎么用
时间: 2023-11-14 07:07:37 浏览: 52
jieba中文停用词表是一个文本文件,其中包含了一系列中文常用词语,如“的”、“是”、“在”等等。这些词语通常不具有很强的语义意义,而且出现频率非常高,因此在文本处理过程中通常需要将它们过滤掉,以提高文本处理效率和质量。
要使用jieba中文停用词表,需要先将停用词表加载到程序中。可以使用如下代码将停用词表加载到程序中:
```
import jieba
# 加载停用词表
stop_words = set()
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f:
stop_words.add(line.strip())
# 去除停用词
text = '我爱北京天安门'
seg_list = jieba.cut(text)
res = []
for word in seg_list:
if word not in stop_words:
res.append(word)
print(res)
```
上述代码中,我们首先使用 `set()` 函数创建一个空集合,然后通过 `open()` 函数打开停用词表文件,逐行读取其中的内容,并将每个词语加入到停用词集合中。接着我们使用 `jieba.cut()` 函数对文本进行分词,然后遍历分词结果,将不在停用词集合中的词语加入到结果列表中。最后输出结果即可。
需要注意的是,jieba中文停用词表并不是一份完整的、包含所有常用词语的停用词表,因此在实际使用过程中,可能需要根据具体的应用场景,自行扩充停用词表。