python统计高频词如何使用停用词
时间: 2024-05-03 07:18:20 浏览: 240
python写程序统计词频的方法
在Python中,可以使用NLTK库来进行文本处理和分词。使用停用词的方法通常是先将文本分词,然后去除停用词,最后统计高频词。
以下是使用停用词的示例代码:
```python
import nltk
from nltk.corpus import stopwords
# 下载停用词
nltk.download('stopwords')
# 加载停用词
stop_words = set(stopwords.words('english'))
# 假设有一个文本字符串
text = "This is an example text for demonstrating how to remove stopwords in natural language processing."
# 分词
words = nltk.word_tokenize(text)
# 去除停用词
filtered_words = [word for word in words if word.lower() not in stop_words]
# 统计高频词
freq_dist = nltk.FreqDist(filtered_words)
top_words = freq_dist.most_common(5)
print(top_words)
```
输出:
```
[('example', 1), ('text', 1), ('demonstrating', 1), ('remove', 1), ('stopwords', 1)]
```
在上面的代码中,我们首先下载了英文停用词,然后加载它们。接下来,我们分词并去除停用词。最后,使用nltk的FreqDist类来统计高频词,并将前5个高频词打印出来。
需要注意的是,停用词的选择通常会影响文本处理和分析的结果,因此需要根据具体的场景和需求进行调整。
阅读全文