def getWordsFromFile(txtFile,stopList): wordsList=[] with open(txtFile,encoding='utf8') as fp: for line in fp: line=line.strip() line=re.sub(r'[.【】0—9 、——,! ~\*]',' ',line) line=cut(line) line=filter(lambda word:len(word)>1,line) wordsList.extend(line) words=[] for i in wordsList: if i not in stopList and i.strip() !='' and i !=None: words.append(i) return words if __name__ == '__main__': getWordsFromFile("D:/data/dataDemo/normal/normal-train1.txt", stopList) print(getWordsFromFile)
时间: 2023-05-20 11:03:42 浏览: 116
stop_words.txt
这是一个Python函数,用于从指定的文本文件中获取单词列表。它会去除文本中的标点符号、数字和停用词,并返回一个单词列表。如果你想要使用这个函数,需要传入两个参数:txtFile表示要读取的文本文件路径,stopList表示停用词列表。如果你想要运行这个函数并输出结果,可以在if __name__ == '__main__'的条件下调用该函数并传入参数,然后使用print函数输出结果。
阅读全文