首页PYTHON 调用jieba模块对每个句子进行分词，并在分词的同时剔除停用词的代码

PYTHON 调用jieba模块对每个句子进行分词，并在分词的同时剔除停用词的代码

时间: 2024-05-21 10:12:22 浏览: 94

python使用jieba实现中文分词去停用词方法示例

前言 jieba 基于Python的中文分词工具，安装使用非常方便，直接pip即可，2/3都可以，功能强悍，十分推荐。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词模块jieba，它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8 支持三种分词模式 1 精确模式，试图将句子最精确地切开，适合文本分析； 2 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快

好的，下面是Python代码实现：首先，需要导入jieba模块和停用词列表。假设停用词列表已经保存在一个名为stopwords.txt的文件中，每个停用词一行。代码如下： import jieba # 读取停用词列表 stopwords = set() with open('stopwords.txt', 'r', encoding='utf-8') as f: for line in f: stopwords.add(line.strip()) 接下来，定义一个函数，传入一个句子，对其进行分词并剔除停用词： def seg_sentence(sentence): seg_list = jieba.lcut(sentence) # 对句子进行分词 seg_list = [word for word in seg_list if word not in stopwords] # 剔除停用词 return seg_list 最后，调用函数即可： sentence = 'Python是一门非常流行的编程语言。' seg_list = seg_sentence(sentence) print(seg_list) 输出为：['Python', '非常', '流行', '编程语言'] 希望可以帮到你，如有不明白的地方，欢迎继续问我。

阅读全文