jieba停用词代码
时间: 2024-06-08 18:03:01 浏览: 160
jieba分词词典和停用词
jieba是一个流行的中文分词工具,其提供了停用词过滤功能,可以过滤掉常见的无意义词语,以提高分词的准确性和效率。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词被称为停用词。
下面是使用jieba自带停用词表的代码示例:
```python
import jieba
# 加载停用词表
jieba.load_userdict('user_dict.txt')
stopwords = [line.strip() for line in open('stopwords.txt', 'r', encoding='utf-8').readlines()]
# 分词并过滤停用词
text = '今天天气真好,我想出去玩。'
words = jieba.cut(text)
words_filtered = [word for word in words if word not in stopwords]
print(words_filtered)
```
其中,`user_dict.txt`是用户自定义的词典文件,可以添加一些特定领域的专业术语等;`stopwords.txt`是jieba自带的中文停用词表文件,里面包含了一些常见的无意义词语,如“的”、“了”、“是”等。
阅读全文