写python脚本 停用词表的使用
时间: 2024-05-07 11:15:28 浏览: 75
去停用词_利用python去停用词_
5星 · 资源好评率100%
停用词表是一种常用的文本预处理方法,可以过滤掉一些常见但无意义的词语,如“的”、“了”、“是”等。在Python中,可以使用NLTK(自然语言工具包)中的停用词表来实现停用词过滤。
以下是一个简单的Python脚本,演示如何使用NLTK停用词表来过滤文本:
```python
import nltk
from nltk.corpus import stopwords
# 加载英文停用词表
stop_words = set(stopwords.words('english'))
# 待处理的文本
text = "This is an example sentence to demonstrate stop word filtration."
# 将文本分词并去除停用词
words = nltk.word_tokenize(text)
filtered_words = [word for word in words if word.lower() not in stop_words]
# 输出过滤后的文本
print(filtered_words)
```
运行以上代码,输出结果为:
```
['example', 'sentence', 'demonstrate', 'stop', 'word', 'filtration', '.']
```
在上述代码中,首先使用`stopwords.words('english')`加载了英文停用词表。然后将待处理的文本分词,并使用列表推导式过滤掉其中的停用词。最后输出过滤后的文本。
需要注意的是,NLTK停用词表只包含一些常见的停用词,可能并不适用于所有的场景。在使用时,需要结合具体的应用场景进行适当的调整和扩展。
阅读全文