爬取本地多个文件夹下html数据并写入mysql数据库
时间: 2023-08-11 11:56:31 浏览: 150
爬取数据并存储到mysql
您好!您可以使用Python的os和BeautifulSoup库来爬取本地多个文件夹下的HTML数据,并使用Python的MySQL Connector库将数据写入MySQL数据库首先,需要安装以下库:
BeautifulSoup:用于解析HTML数据
- MySQL Connector:用于连接MySQL数据库
您可以使用以下代码来实现这个功能:
```python
import os
from bs4 import BeautifulSoup
import mysql.connector
# 配置MySQL数据库连接
config = {
'user': 'your_username',
'password': 'your_password',
'host': 'localhost',
'database': 'your_database_name',
'raise_on_warnings': True
}
# 连接MySQL数据库
conn = mysql.connector.connect(**config)
cursor = conn.cursor()
# 遍历文件夹
root_folder = 'your_root_folder_path'
for root, dirs, files in os.walk(root_folder):
for file in files:
if file.endswith('.html'):
file_path = os.path.join(root, file)
# 读取HTML文件内容
with open(file_path, 'r') as f:
html_content = f.read()
# 解析HTML数据
soup = BeautifulSoup(html_content, 'html.parser')
# 提取需要的数据
# ...
# 将数据写入MySQL数据库表
# ...
# 提交事务
conn.commit()
# 关闭数据库连接
cursor.close()
conn.close()
```
在上述代码中,您需要根据实际情况进行相应的配置,如MySQL数据库的用户名、密码、主机名、数据库名,以及根文件夹的路径。然后,遍历文件夹中的HTML文件,读取文件内容并使用BeautifulSoup解析HTML数据,然后将提取的数据写入MySQL数据库中。
请注意,上述代码仅提供了一个框架,您需要根据实际需要进行适当的修改和完善,包括提取需要的数据和将数据写入数据库的具体实现。
希望能对您有所帮助!如有任何疑问,请随时提问。
阅读全文