python爬虫存入mysql
时间: 2023-11-06 11:57:58 浏览: 109
要使用Python爬虫将数据存入MySQL数据库,您可以遵循以下步骤:
步骤1:导入所需的库
您需要导入requests库用于网页抓取,beautifulsoup库用于HTML解析,以及pymysql库用于与MySQL交互。您可以使用以下代码导入这些库:
```python
import requests
from bs4 import BeautifulSoup
import pymysql
```
步骤2:建立数据库连接
使用pymysql库,您需要建立与MySQL数据库的连接。您需要提供数据库的主机名、用户名、密码和数据库名称。您可以使用以下代码建立连接:
```python
conn = pymysql.connect(host='localhost', user='your_username', password='your_password', db='your_database')
```
步骤3:创建游标对象
在与数据库建立连接后,您需要创建一个游标对象,用于执行SQL语句。您可以使用以下代码创建游标对象:
```python
cursor = conn.cursor()
```
步骤4:抓取网页数据
使用requests库,您可以抓取指定网页的HTML数据。您可以使用以下代码抓取网页数据:
```python
url = 'https://example.com' # 替换为您要抓取的网页URL
response = requests.get(url)
html = response.text
```
步骤5:解析HTML数据
使用beautifulsoup库,您可以解析抓取到的HTML数据,并提取出需要的数据。您可以使用以下代码解析HTML数据:
```python
soup = BeautifulSoup(html, 'html.parser')
# 进行解析和数据提取的代码
```
步骤6:将数据存入数据库
使用游标对象,您可以执行SQL语句将抓取到的数据存入MySQL数据库。您可以使用以下代码将数据存入数据库:
```python
sql = "INSERT INTO table_name (column1, column2, ...) VALUES (%s, %s, ...)" # 替换为您的表名和列名
cursor.execute(sql, (value1, value2, ...)) # 替换为您的数据值
conn.commit()
```
步骤7:关闭游标和数据库连接
在完成数据存入数据库后,您需要关闭游标和数据库连接。您可以使用以下代码关闭游标和数据库连接:
```python
cursor.close()
conn.close()
```
请注意,以上代码仅为示例,您需要根据您的具体情况进行修改。
阅读全文