Python使用jieba分词时,怎么做到忽略停用词
时间: 2024-11-25 19:18:48 浏览: 8
在Python中,使用jieba分词时,可以预先加载一个停用词表,然后在分词之前排除这些词语。jieba库本身并不内置停用词管理,但是你可以自定义停用词列表。以下是一个简单的例子:
```python
import jieba
from jieba import posseg as pseg
# 加载停用词表(这里假设有一个名为"stopwords.txt"的文件,每行一个停用词)
with open('stopwords.txt', 'r', encoding='utf-8') as f:
stop_words = [line.strip() for line in f]
def segment_and_remove_stopwords(text):
# 使用pseg.cut进行分词,并同时获取词性和词语
words = pseg.cut(text)
# 过滤掉停用词
filtered_words = [(word, flag) for word, flag in words if word not in stop_words]
# 返回只保留词语的列表
return [word for word, flag in filtered_words]
text = "这是一段包含很多停用词的文本"
filtered_segments = segment_and_remove_stopwords(text)
print(filtered_segments)
```
在这个例子中,我们首先读取停用词表,然后遍历分词结果,如果词语不在停用词表中就保留下来。注意,你需要根据实际应用调整停用词表的来源。
阅读全文