结巴分词停用词词典代码
时间: 2024-03-12 11:41:29 浏览: 106
结巴分词源代码
4星 · 用户满意度95%
结巴分词是一款常用的中文分词工具,它提供了一个停用词词典,用于过滤掉一些常见但无实际意义的词语。以下是结巴分词停用词词典的代码介绍:
1. 导入结巴分词库和停用词模块:
```python
import jieba
from jieba import analyse
```
2. 加载停用词词典:
```python
jieba.analyse.set_stop_words("stopwords.txt")
```
其中,"stopwords.txt" 是一个文本文件,里面包含了需要过滤的停用词列表。
3. 使用结巴分词进行分词:
```python
text = "我爱自然语言处理"
seg_list = jieba.cut(text, cut_all=False)
print(" ".join(seg_list))
```
这里的 `cut_all=False` 表示采用精确模式进行分词。
4. 结果输出:
```
我 爱 自然语言 处理
```
阅读全文