python去除文本停用词
时间: 2023-10-13 21:24:08 浏览: 130
去停用词_利用python去停用词_
5星 · 资源好评率100%
在Python中,可以使用nltk包来去除文本中的停用词。下面是一个例子:
首先,需要安装nltk包,可以使用以下命令:
```python
pip install nltk
```
然后,在Python中导入nltk包并下载停用词:
```python
import nltk
nltk.download('stopwords')
```
接着,可以使用以下代码去除文本中的停用词:
```python
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english')) # 停用词集合
text = "This is an example sentence to remove stopwords from."
words = text.split() # 将文本分词
filtered_words = [word for word in words if word.lower() not in stop_words] # 去除停用词
filtered_text = ' '.join(filtered_words) # 将分词拼接成文本
print(filtered_text)
```
输出结果为:
```
example sentence remove stopwords from.
```
以上代码中,首先使用`set(stopwords.words('english'))`获取英文停用词集合。然后,将待处理的文本分词,去除停用词,最后将分词拼接成文本。
需要注意的是,以上代码只适用于英文文本,如果需要去除其他语言的停用词,需要使用对应语言的停用词集合。
阅读全文