python jieba分词去除停用词
时间: 2023-09-04 22:16:16 浏览: 189
python使用jieba实现中文分词去停用词方法示例
你可以使用 Python 中的 jieba 库来进行中文分词,并使用自定义的停用词表来去除停用词。以下是一个示例代码:
```python
import jieba
# 读取停用词表
stopwords_path = 'stopwords.txt'
stopwords = [line.strip() for line in open(stopwords_path, 'r', encoding='utf-8').readlines()]
# 分词并去除停用词
text = "我爱自然语言处理"
words = jieba.cut(text)
result = []
for word in words:
if word not in stopwords:
result.append(word)
print(result)
```
其中,停用词表可以自己定义或者使用已有的停用词表。在上面的示例中,停用词表的文件路径为 `stopwords.txt`,它包含了一些常见的停用词。分词后,将不在停用词表中的词加入结果列表 `result` 中。
阅读全文