jupyter 去除中文停用词
时间: 2023-11-05 22:50:33 浏览: 102
去除停用词.c
5星 · 资源好评率100%
首先,你需要下载中文停用词表,可以从以下链接中下载:https://github.com/goto456/stopwords.git
然后,你可以使用 Python 中的 jieba 库进行分词,并在分词时去除停用词。以下是一个示例代码:
```python
import jieba
import os
# 读取停用词表
stopwords_path = os.path.join(os.getcwd(), 'stopwords', 'Chinese.txt')
stopwords = set()
with open(stopwords_path, 'r', encoding='utf-8') as f:
for line in f:
stopwords.add(line.strip())
# 分词并去除停用词
text = '我喜欢吃苹果'
words = jieba.cut(text)
words_filtered = [word for word in words if word not in stopwords]
print(words_filtered) # ['喜欢', '吃', '苹果']
```
在这个示例中,我们首先读取了中文停用词表,并将其存储在一个 set 类型的变量中。然后,我们使用 jieba 库对文本进行分词,并使用列表推导式去除了其中的停用词。最后,我们打印了去除停用词后的分词结果。
阅读全文