判断是否含有停用词且删除list
时间: 2023-08-10 08:03:41 浏览: 60
list去掉重复对象
5星 · 资源好评率100%
好的,对于这个任务,我可以给出以下代码:
```python
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
def remove_stopwords(text):
# 加载停用词
stop_words = set(stopwords.words('english'))
# 将文本分割成单词
words = text.split()
# 删除停用词
filtered_words = [word for word in words if word.lower() not in stop_words]
# 将过滤后的单词重新组合成文本
return ' '.join(filtered_words)
# 示例
text = "This is a sample sentence containing some stopwords."
filtered_text = remove_stopwords(text)
print("原始文本:", text)
print("过滤后的文本:", filtered_text)
```
运行上述代码会得到以下输出:
```
原始文本: This is a sample sentence containing some stopwords.
过滤后的文本: sample sentence containing stopwords.
```
这里使用了 NLTK 库提供的英文停用词列表,并根据这个列表过滤掉文本中的停用词。最后将过滤后的单词重新组合成文本并返回。
阅读全文