PYTHON 调用jieba模块对每个句子进行分词,并在分词的同时剔除停用词的代码
时间: 2024-05-21 10:12:22 浏览: 94
python使用jieba实现中文分词去停用词方法示例
好的,下面是Python代码实现:
首先,需要导入jieba模块和停用词列表。假设停用词列表已经保存在一个名为stopwords.txt的文件中,每个停用词一行。代码如下:
import jieba
# 读取停用词列表
stopwords = set()
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f:
stopwords.add(line.strip())
接下来,定义一个函数,传入一个句子,对其进行分词并剔除停用词:
def seg_sentence(sentence):
seg_list = jieba.lcut(sentence) # 对句子进行分词
seg_list = [word for word in seg_list if word not in stopwords] # 剔除停用词
return seg_list
最后,调用函数即可:
sentence = 'Python是一门非常流行的编程语言。'
seg_list = seg_sentence(sentence)
print(seg_list)
输出为:['Python', '非常', '流行', '编程语言']
希望可以帮到你,如有不明白的地方,欢迎继续问我。
阅读全文