用python实现去停用词
时间: 2023-05-20 18:03:23 浏览: 109
去停用词_利用python去停用词_
5星 · 资源好评率100%
可以使用NLTK库来实现去停用词的功能,以下是示例代码:
```python
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')
stop_words = set(stopwords.words('english'))
def remove_stopwords(text):
word_tokens = word_tokenize(text)
filtered_text = [word for word in word_tokens if word.lower() not in stop_words]
return ' '.join(filtered_text)
```
在上面的代码中,我们首先导入了NLTK库和需要使用的模块,然后下载了英文停用词和分词器所需的数据。接着,我们定义了一个函数remove_stopwords,它接受一个字符串作为输入,并返回去除停用词后的字符串。在函数中,我们首先使用NLTK的word_tokenize函数将输入的字符串分词,然后使用列表推导式过滤掉其中的停用词,最后将过滤后的词重新组合成一个字符串并返回。
如果你想去除中文停用词,可以使用jieba库来实现。
阅读全文