my_stop_words = ['哈哈哈', '哈哈哈哈', '评论'] stop_words.extend(my_stop_words) word_num = jieba.lcut(x_series.astype('str').str.cat(sep='。'), cut_all=False) word_num_selected = [i for i in word_num if i not in stop_words and len(i) >= 2] return word_num_selected text1 = get_cut_words(x_series=df.text) 解释这串代码
时间: 2024-03-11 12:44:49 浏览: 57
MIPS32.rar_control.v_mips pipeline
这段代码主要是对一个包含多个文本的 pandas Series 对象进行分词,并去除停用词和长度小于 2 的词语,返回处理后的词语列表。
具体来说,代码首先定义了一个自定义的停用词列表 my_stop_words,然后将其加入到 jieba 分词库的默认停用词列表 stop_words 中。接着,代码使用了 pandas 的 astype 方法将所有文本转换为字符串形式,并用 str.cat 方法将它们拼接起来,以便于进行分词处理。
接下来,代码使用 jieba 分词库的 lcut 方法对拼接后的文本进行分词,得到一个包含所有词语的列表 word_num。然后,通过列表推导式筛选出长度大于等于 2 且不在停用词列表中的词语,保存在列表 word_num_selected 中。最后,代码将 word_num_selected 返回作为分词结果。
需要注意的是,这段代码中的 x_series 是一个 pandas Series 对象,其中每个元素都是一个字符串形式的文本。
阅读全文