python文本分词去停用词
时间: 2024-10-18 14:00:29 浏览: 73
python文本分词,去停用词,包含基础停用词词典
在Python中,文本分词和去除停用词是自然语言处理(NLP)的基本步骤之一。通常用于预处理文本数据,以便于后续分析如情感分析、主题建模等。以下是简单的流程:
1. **分词**(Tokenization): 使用诸如`jieba`库对文本进行切分成一个个词语或单词,这是将连续的文本转换成计算机可以理解的一组单元。
```python
import jieba
text = "这是一个示例句子"
words = jieba.lcut(text)
print(words) # 输出 ['这是', '一个', '示例', '句子']
```
2. **下载停用词表**: `jieba`库默认提供了一个中文停用词列表,也可以从其他来源获取,如`NLTK`库对于英文有停用词列表。
```python
from jieba.analyse import load_stop_words
stop_words = load_stop_words('zh') # 加载中文停用词
```
3. **去除停用词**: 过滤掉停用词列表中的词语,保留有意义的词汇。
```python
filtered_words = [word for word in words if word not in stop_words]
print(filtered_words)
```
阅读全文