python去除中文停用词的代码
时间: 2024-10-14 07:06:45 浏览: 61
去停用词_利用python去停用词_
5星 · 资源好评率100%
Python中去除中文停用词通常会涉及到自然语言处理库NLTK(Natural Language Toolkit)和一些预定义的停用词列表。以下是一个简单的示例,展示如何使用NLTK和Jieba库去除停用词:
```python
import jieba
from jieba import posseg as pseg
from collections import Counter
from nltk.corpus import stopwords
# 下载停用词和jieba字典
jieba.setLogLevel(0)
stop_words = set(stopwords.words('chinese'))
def remove_stopwords(text):
words = pseg.cut(text) # 使用jieba分词
filtered_words = [word for word, flag in words if flag != 'u'] # 只保留非停用词
return [word for word in filtered_words if word not in stop_words] # 去除停用词
# 示例文本
text = "这是一个测试文本,包含一些常用的停用词。"
filtered_text = remove_stopwords(text)
print(filtered_text)
#
阅读全文