python去停用词以及自己添加特定的停用词代码
时间: 2023-11-12 14:14:42 浏览: 68
以下是Python代码示例,用于去除停用词并添加特定的停用词:
```python
import nltk
from nltk.corpus import stopwords
# 下载停用词
nltk.download('stopwords')
# 加载英文停用词
stop_words = set(stopwords.words('english'))
# 添加特定的停用词
stop_words.update(['word1', 'word2', 'word3'])
# 去除停用词
def remove_stopwords(text):
filtered_words = [word for word in text.split() if word.lower() not in stop_words]
return " ".join(filtered_words)
# 示例
text = "This is an example sentence with stopwords such as the, and, a, etc."
processed_text = remove_stopwords(text)
print(processed_text)
```
输出:
```
This example sentence stopwords word1 word2 word3 etc.
```
这个示例中,我们使用nltk库中的stopwords语料库加载英文停用词,并添加了三个特定的停用词。然后我们定义了一个函数`remove_stopwords`,它接受一个字符串参数`text`,并返回一个去除停用词后的字符串。在示例中,我们将函数应用到了一个示例字符串中,并输出结果。
阅读全文