用python,使用自己的停用词表实现去停用词
时间: 2023-05-20 17:03:24 浏览: 108
常用停用词表整理(川大、哈工大、百度等)
可以使用以下代码实现:
```python
import jieba
# 读取停用词表
with open('stopwords.txt', 'r', encoding='utf-8') as f:
stopwords = [line.strip() for line in f.readlines()]
# 分词并去停用词
def cut_words(text):
words = jieba.cut(text)
return [word for word in words if word not in stopwords]
```
其中,`stopwords.txt` 是自己准备的停用词表文件,可以根据需要进行修改。使用 `jieba.cut` 进行分词,然后通过列表推导式去除停用词,最终返回分词结果。
阅读全文