python加载停用词
时间: 2023-07-11 12:46:43 浏览: 156
在 Python 中,我们可以使用 `nltk` 库来加载停用词。`nltk` 是自然语言处理中一个常用的 Python 库,它包含了大量的语料库和工具,可以方便地进行文本预处理等操作。
首先,我们需要下载 `nltk` 中的停用词列表。可以使用以下代码来下载英语停用词列表:
```python
import nltk
nltk.download('stopwords')
```
接着,我们可以使用以下代码来加载停用词:
```python
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
```
以上代码将加载英语停用词列表,并将其存储在 `stop_words` 变量中。您可以根据需要更改语言,以加载其他语言的停用词列表。
加载完停用词之后,您可以使用它来过滤文本中的停用词。例如:
```python
text = "This is an example sentence that contains some stopwords."
words = text.split()
filtered_words = [word for word in words if word.lower() not in stop_words]
filtered_text = ' '.join(filtered_words)
print(filtered_text)
```
输出结果将是:
```
example sentence contains stopwords.
```
以上代码使用 `split()` 方法将文本拆分为单词,然后使用列表推导式和 `not in` 运算符来过滤停用词。最后,使用 `join()` 方法将过滤后的单词重新组合成文本。
阅读全文