首页import os import re import csv from bs4 import BeautifulSoup folder_path = 'C:/Users/test/Desktop/DIDItest' html_files = [] # 遍历文件夹及其子文件夹下所有HTML文件 for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith('.html'): html_files.append(os.path.join(root, file))打开并提取所有html文件源代码

import os import re import csv from bs4 import BeautifulSoup folder_path = 'C:/Users/test/Desktop/DIDItest' html_files = [] # 遍历文件夹及其子文件夹下所有HTML文件 for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith('.html'): html_files.append(os.path.join(root, file))打开并提取所有html文件源代码

时间: 2024-04-15 11:30:44 浏览: 235

您好！要打开并提取所有HTML文件的源代码，可以按照以下步骤进行操作： 1. 导入所需的库： ```python import os from bs4 import BeautifulSoup ``` 2. 指定文件夹路径和一个空列表来存储HTML文件的路径： ```python folder_path = 'C:/Users/test/Desktop/DIDItest' html_files = [] ``` 3. 使用`os.walk()`函数遍历文件夹及其子文件夹下的所有文件，并筛选出以`.html`结尾的文件： ```python for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith('.html'): html_files.append(os.path.join(root, file)) ``` 4. 循环遍历所有HTML文件，并使用BeautifulSoup库打开并提取源代码： ```python for file_path in html_files: with open(file_path, 'r', encoding='utf-8') as file: html_source_code = file.read() soup = BeautifulSoup(html_source_code, 'html.parser') # 在这里可以对源代码进行进一步的处理或提取需要的信息 ``` 请注意，这里使用了BeautifulSoup库来解析HTML文件，您需要确保已经安装了该库，可以使用`pip install beautifulsoup4`来安装。希望能对您有所帮助！如有任何疑问，请随时提问。

阅读全文