python自己设置停用词并去除
时间: 2024-03-19 17:34:57 浏览: 52
在Python中,可以使用NLTK(自然语言工具包)来设置停用词并去除它们。停用词是指在文本中频繁出现但不具有实际含义的单词,例如“the”、“and”、“of”等。
以下是一个简单的例子,演示如何使用NLTK来设置自己的停用词列表并从文本中去除它们:
```python
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
# 设置自己的停用词列表
my_stopwords = ["a", "an", "the", "and", "or", "in", "on", "at", "to", "from"]
# 加载NLTK默认的停用词列表
stop_words = set(stopwords.words('english'))
# 将自己的停用词列表添加到NLTK默认列表中
stop_words.update(my_stopwords)
# 从文本中去除停用词
text = "This is a sample text containing some stopwords"
filtered_text = " ".join(word for word in text.split() if word not in stop_words)
print(filtered_text)
# 输出:This is sample text containing some stopwords
```
在上述例子中,我们首先使用NLTK下载和加载默认的停用词列表。然后,我们将自己的停用词列表添加到NLTK默认列表中,形成一个新的停用词集合。最后,我们使用列表推导式从文本中去除停用词,并将结果组合成一个字符串。
阅读全文