def getWordsFromFile(txtFile,stopList): wordsList=[] with open(txtFile,encoding='utf8') as fp: for line in fp: line=line.strip() line=re.sub(r'[.【】0—9 、——,! ~\*]',' ',line) line=cut(line) line=filter(lambda word:len(word)>1,line) wordsList.extend(line) words=[] for i in wordsList: if i not in stopList and i.strip() !='' and i !=None: words.append(i) return words if __name__ == '__main__': getWordsFromFile("D:/data/dataDemo/normal/normal-train1.txt", stopList) print(getWordsFromFile)
时间: 2023-05-20 12:03:42 浏览: 94
这是一个Python函数,用于从指定的文本文件中获取单词列表。它会去除文本中的标点符号、数字和停用词,并返回一个单词列表。如果你想要使用这个函数,需要传入两个参数:txtFile表示要读取的文本文件路径,stopList表示停用词列表。如果你想要运行这个函数并输出结果,可以在if __name__ == '__main__'的条件下调用该函数并传入参数,然后使用print函数输出结果。
相关问题
wordsDict.clear() for fileName in spamFileList: wordsList.clear() for line in open("../data/spam/" + fileName, encoding="gbk"): rule = re.compile(r"[^\u4e00-\u9fa5]") line = rule.sub("", line) spam.get_word_list(line, wordsList, stopList) spam.addToDict(wordsList, wordsDict) spamDict = wordsDict.copy()作用是什么
这段代码的作用是清空`wordsDict`字典,并对`../data/spam/`目录下的每个文件进行处理,提取出中文单词并将其添加到`wordsList`列表中,然后将`wordsList`中的单词添加到`wordsDict`字典中。最后,将`wordsDict`复制给`spamDict`。这段代码可能是用于对垃圾邮件进行文本处理,并将处理后的文本用于训练垃圾邮件分类器。
stop = pd.read_csv(stoplist, encoding='utf-8', header=None, sep='tipdm')中的参数是什么意思
这是一个Python代码,其中stoplist是一个文件路径,pd.read_csv()是Pandas库中的函数,用于从CSV文件中读取数据并返回一个DataFrame对象。参数encoding='utf-8'表示使用UTF-8编码读取文件,header=None表示文件中没有列标题,sep='tipdm'表示使用'tipdm'作为分隔符。
相关推荐
![txt](https://img-home.csdnimg.cn/images/20210720083642.png)
![txt](https://img-home.csdnimg.cn/images/20210720083642.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)