python 去除停用词
时间: 2023-06-23 20:50:21 浏览: 109
可以使用nltk库进行停用词的去除。首先需要下载nltk库,然后加载停用词库,最后对文本进行分词并去除停用词即可。以下是示例代码:
```
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
text = "This is an example sentence showing off stop word filtration."
words = text.lower().split()
filtered_words = [word for word in words if word not in stop_words]
print(filtered_words)
```
输出结果为:['example', 'sentence', 'showing', 'stop', 'word', 'filtration.']。可以看到,停用词“this”, “is”, “an”, “off”已经被成功去除。
相关问题
python去除停用词
在Python中可以使用nltk库来移除停用词。下面是一个简单的例子:
```python
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
# 输入文本
text = "This is an example sentence to remove stopwords."
# 分词
words = text.split()
# 移除停用词
filtered_words = [word for word in words if word.lower() not in stopwords.words('english')]
# 输出结果
print(filtered_words)
```
输出结果为:
```
['example', 'sentence', 'remove', 'stopwords.']
```
在这个例子中,我们使用了nltk库中提供的英文停用词列表来移除输入文本中的停用词。你也可以使用其他停用词列表,或者自己定义一个停用词列表。
python去除停用词代码
可以使用以下代码来去除停用词:
```
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
words = ['hello', 'world', 'this', 'is', 'a', 'test', 'sentence']
filtered_words = [word for word in words if word.lower() not in stop_words]
print(filtered_words) # Output: ['hello', 'world', 'test', 'sentence']
```
此处的停用词列表为英语停用词列表,如果需要用其他语言的停用词列表可以在nltk.corpus中找到相应的语言停用词列表。
阅读全文