添加了多个停用词表,过滤停用词的代码要如何写?
时间: 2024-05-03 21:21:42 浏览: 77
敏感词过滤程序,用C++写的,比较简单
4星 · 用户满意度95%
可以将多个停用词表合并成一个列表,然后在过滤文本时使用这个列表进行停用词过滤。以下是一个示例代码:
```python
import nltk
from nltk.corpus import stopwords
# 加载多个停用词表
stopwords1 = stopwords.words('english')
stopwords2 = ['example', 'stopword', 'list']
stopwords3 = ['another', 'list', 'of', 'stopwords']
stopwords_list = stopwords1 + stopwords2 + stopwords3
def remove_stopwords(text):
# 将文本转换为小写,并分词
words = nltk.word_tokenize(text.lower())
# 过滤停用词
filtered_words = [word for word in words if word not in stopwords_list]
# 将过滤后的单词列表转换为字符串
filtered_text = ' '.join(filtered_words)
return filtered_text
```
在上述代码中,我们将 `stopwords1`、`stopwords2` 和 `stopwords3` 合并成一个列表 `stopwords_list`,然后在 `remove_stopwords` 函数中使用这个列表进行停用词过滤。
阅读全文