未提取指定文件夹下的所有文件夹内的HTML
时间: 2023-08-16 09:04:48 浏览: 77
非常抱歉,我之前的回答有误。以下是修改后的代码,可以提取指定文件夹下所有文件夹内的HTML文件的源代码:
```python
import os
from bs4 import BeautifulSoup
folder_path = 'C:/Users/test/Desktop/DIDItest'
html_files = []
# 遍历文件夹及其子文件夹下所有HTML文件
for root, dirs, files in os.walk(folder_path):
for file in files:
if file.endswith('.html'):
html_files.append(os.path.join(root, file))
# 解析HTML并提取源代码
for file_path in html_files:
with open(file_path, 'r', encoding='utf-8') as file:
html_code = file.read()
soup = BeautifulSoup(html_code, 'html.parser')
source_code = soup.get_text()
# 将源代码转换为字符串格式
source_code_str = str(source_code)
# 在这里可以对源代码字符串进行进一步处理或保存到文件中
```
这段代码会遍历指定文件夹及其子文件夹下的所有HTML文件,并提取每个文件的源代码。你可以在代码中的注释部分进行进一步处理或保存操作。
再次对之前给出的错误回答表示抱歉,希望这次能够帮助到你。
阅读全文