jieba去除停用词和标点符号的代码
时间: 2023-08-30 20:09:35 浏览: 180
下面是使用jieba库去除中文停用词和标点符号的代码示例:
```python
import jieba
import jieba.analyse
import re
# 加载停用词表
stopwords_path = 'stopwords.txt'
def get_stopwords():
stopwords = []
with open(stopwords_path, 'r', encoding='utf-8') as f:
for line in f.readlines():
stopwords.append(line.strip())
return stopwords
# 加载文本
text = '今天是个好天气,我们一起去公园玩吧!'
# 去除标点符号
text = re.sub(r'[^\w\s]','',text)
# 分词
words = jieba.cut(text)
# 去除停用词
stopwords = get_stopwords()
words = [word for word in words if word not in stopwords]
# 输出结果
print(words)
```
其中,`stopwords.txt`是保存中文停用词的文本文件,每行一个停用词。`re.sub(r'[^\w\s]','',text)`用于去除文本中的标点符号。`jieba.cut(text)`用于将文本分词,`get_stopwords()`用于加载停用词表,`[word for word in words if word not in stopwords]`用于去除停用词。
阅读全文