for file in os.listdir(path): with open(os.path.join(path, file), 'r', encoding='utf-8') as f: text = f.read() text = re.sub(r'<[^>]*>', ' ', text) text = re.sub(r'\s+', ' ', text).strip() data.append(text) labels.append(label) return data, labels
时间: 2023-12-12 16:05:15 浏览: 122
python利用os模块编写文件复制功能——copy()函数用法
5星 · 资源好评率100%
这段代码使用Python中的os和re库,实现了读取指定路径下所有文件的内容,并对文件内容进行正则化处理,最终将处理后的文本数据以及其对应的标签返回。
具体来说,在for循环中,os.listdir(path)用于获取指定路径下所有的文件名,然后利用os.path.join(path, file)函数将路径和文件名结合起来,得到文件的完整路径。随后,使用open函数打开文件,并将文件内容读取出来。接着,使用re.sub函数对文本进行正则化处理,将文本中的HTML标签替换为空格,然后再将多余的空格替换成一个空格,并去除文本两端的空格。最后,将处理后的文本数据添加到data列表中,并将其对应的标签添加到labels列表中。最终返回data和labels列表。
阅读全文