import os from bs4 import BeautifulSoup import re # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 正则表达式模式 pattern = r'<body>(.*?)<\/body>' # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8") as f: html_code = f.read() # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) # 剔除<p>和()</p> body_data = body_data[0].replace("<p>", "").replace("()</p>", "")
时间: 2024-04-18 08:25:34 浏览: 108
python爬虫代码(包括ppt,word,影视地址链接,电子书爬取)
您的代码看起来很好,它使用 BeautifulSoup 库解析 HTML 并使用正则表达式模匹配 `<body>` 标签内的数据。然后通过剔除 `<p>` 标签和 `()</p>` 的方式处理数据。
请注意,这里的代码假设每个文件只有一个 `<body>` 标签,且数据在其中。如果有多个 `<body>` 标签或其他特殊情况,请根据实际情况进行适当的修改。
如果还有其他问题,请随时提问。
阅读全文