首页jieba中文停用词表怎么用

jieba中文停用词表怎么用

时间: 2023-11-14 07:07:37 浏览: 52

jieba中文停用词表是一个文本文件，其中包含了一系列中文常用词语，如“的”、“是”、“在”等等。这些词语通常不具有很强的语义意义，而且出现频率非常高，因此在文本处理过程中通常需要将它们过滤掉，以提高文本处理效率和质量。要使用jieba中文停用词表，需要先将停用词表加载到程序中。可以使用如下代码将停用词表加载到程序中： ``` import jieba # 加载停用词表 stop_words = set() with open('stopwords.txt', 'r', encoding='utf-8') as f: for line in f: stop_words.add(line.strip()) # 去除停用词 text = '我爱北京天安门' seg_list = jieba.cut(text) res = [] for word in seg_list: if word not in stop_words: res.append(word) print(res) ``` 上述代码中，我们首先使用 `set()` 函数创建一个空集合，然后通过 `open()` 函数打开停用词表文件，逐行读取其中的内容，并将每个词语加入到停用词集合中。接着我们使用 `jieba.cut()` 函数对文本进行分词，然后遍历分词结果，将不在停用词集合中的词语加入到结果列表中。最后输出结果即可。需要注意的是，jieba中文停用词表并不是一份完整的、包含所有常用词语的停用词表，因此在实际使用过程中，可能需要根据具体的应用场景，自行扩充停用词表。