def drop_stopwords(contents,stopwords): contents_clean = [] all_words = [] for line in contents: line_clean = [] for word in line: if word in stopwords: continue line_clean.append(word) all_words.append(str(word)) contents_clean.append(line_clean) return contents_clean,all_words #print (contents_clean) contents = df_content.content_S.values.tolist() stopwords = stopwords.stopword.values.tolist() contents_clean,all_words = drop_stopwords(contents,stopwords)
时间: 2024-04-26 09:23:42 浏览: 236
stop_words.txt
这段代码定义了一个名为drop_stopwords的函数,用来去除分词结果中的停用词,并返回去除停用词后的分词结果以及所有单词的列表。
第一行代码`def drop_stopwords(contents,stopwords):` 定义了一个函数名为drop_stopwords,该函数接受两个参数:contents为分词结果列表,stopwords为停用词列表。
第二行代码`contents_clean = []` 创建一个空列表contents_clean,用来存储去除停用词后的分词结果。
第三行代码`all_words = []` 创建一个空列表all_words,用来存储所有的单词。
第四行代码使用了两个for循环,对每个分词结果进行处理。外层循环遍历所有的分词列表line,内层循环对每个分词结果中的每个单词进行处理。
第五行代码`if word in stopwords: continue` 是用来判断当前单词是否为停用词,如果是,则跳过当前单词,继续处理下一个单词。
第六行代码`line_clean.append(word)` 是将当前单词加入到line_clean列表中。
第七行代码`all_words.append(str(word))` 是将当前单词加入到all_words列表中(注意,这里将单词转换为字符串类型)。
第八行代码`contents_clean.append(line_clean)` 是将去除停用词后的分词结果加入到contents_clean列表中。
第九行代码`return contents_clean,all_words` 是将去除停用词后的分词结果以及所有单词的列表作为函数的返回值。
最后两行代码将分词结果列表和停用词列表作为参数传递给drop_stopwords函数,并将返回的结果分别保存到contents_clean和all_words变量中。
阅读全文