python jieba如何导入停用词
时间: 2023-08-30 07:09:25 浏览: 919
python使用jieba实现中文分词去停用词方法示例
可以通过以下步骤导入停用词:
1. 下载停用词表文件,如:stopwords.txt。可以在网上搜索下载,也可以自己手动创建。
2. 安装 jieba 库,如果没有安装可以通过 pip install jieba 命令进行安装。
3. 导入 jieba 库和打开停用词文件,如下所示:
```python
import jieba
stopwords = [line.strip() for line in open('stopwords.txt', 'r', encoding='utf-8').readlines()]
```
其中,`stopwords.txt` 是停用词文件的路径,需要根据实际情况进行修改。
4. 在分词时使用 `cut` 方法,并过滤掉停用词,如下所示:
```python
text = '我爱自然语言处理'
seg_list = jieba.cut(text)
seg_list = [word for word in seg_list if word not in stopwords]
print(seg_list)
```
输出结果为:`['爱', '自然语言处理']`,停用词“我”被过滤掉了。
注意:如果停用词表文件中每个停用词占一行,则需要使用 `strip()` 方法去除每行末尾的换行符。
阅读全文