首页未提取指定文件夹下的所有文件夹内的HTML

未提取指定文件夹下的所有文件夹内的HTML

时间: 2023-08-16 09:04:48 浏览: 77

非常抱歉，我之前的回答有误。以下是修改后的代码，可以提取指定文件夹下所有文件夹内的HTML文件的源代码： ```python import os from bs4 import BeautifulSoup folder_path = 'C:/Users/test/Desktop/DIDItest' html_files = [] # 遍历文件夹及其子文件夹下所有HTML文件 for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith('.html'): html_files.append(os.path.join(root, file)) # 解析HTML并提取源代码 for file_path in html_files: with open(file_path, 'r', encoding='utf-8') as file: html_code = file.read() soup = BeautifulSoup(html_code, 'html.parser') source_code = soup.get_text() # 将源代码转换为字符串格式 source_code_str = str(source_code) # 在这里可以对源代码字符串进行进一步处理或保存到文件中 ``` 这段代码会遍历指定文件夹及其子文件夹下的所有HTML文件，并提取每个文件的源代码。你可以在代码中的注释部分进行进一步处理或保存操作。再次对之前给出的错误回答表示抱歉，希望这次能够帮助到你。

阅读全文