def stopchineseword(segResult): if segResult!=None: segResult=segResult.split() if len(segResult)!=0: segResult=[word_item.split('/')[0] for word_item in segResult] file = open("stopwords.txt","r",encoding='utf-8') data = [] new_segResult=[] for i in file.readlines(): #从文件中读取数据并将其添加到列表中 data.append(i.strip()) for i in segResult: if i in data: #比较是否为停用词 continue else: new_segResult.append(i) return ' '.join(new_segResult) else: return " " else: return ' '
时间: 2023-06-16 21:08:13 浏览: 102
python-workouts:Python基础快速参考
这是一个用于过滤中文停用词的函数,其输入参数为经过分词后的句子,输出为去除停用词后的句子。具体实现步骤如下:
1. 将分词结果按空格分割为单个词语;
2. 读取停用词表,将其中的词语添加到一个列表中;
3. 遍历分词结果中的每一个词语,如果该词语为停用词,则跳过该词语,否则将其添加到一个新的列表中;
4. 将新的列表中的词语用空格连接成一个字符串,并返回。
需要注意的是,该函数中的停用词表文件名为 "stopwords.txt",需要提前准备好该文件并放置在与该函数脚本相同的目录下,而且该文件必须使用 UTF-8 编码。
阅读全文