首页python爬取数据保存到数据库

python爬取数据保存到数据库

时间: 2023-11-04 07:02:47 浏览: 369

Python爬虫是一种自动化获取网页数据的技术，可以使用Python中的各种库和框架来实现网页数据的获取和处理。本文将介绍如何使用Python爬取数据并保存到数据库。首先，我们需要安装所需的Python库，包括requests、beautifulsoup和pymysql（如果使用MySQL数据库）。安装完成后，我们可以开始编写爬虫代码。 1. 导入所需的库 ``` import requests from bs4 import BeautifulSoup import pymysql ``` 2. 连接到数据库 ``` db = pymysql.connect(host='localhost', user='root', password='password', database='mydb') cursor = db.cursor() ``` 3. 发起HTTP请求，并使用BeautifulSoup解析HTML内容 ``` url = 'https://example.com' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') ``` 4. 使用BeautifulSoup选择器定位所需的数据，并将其保存到变量中 ``` data = soup.select('.classname') ``` 5. 遍历数据，并将其插入到数据库中 ``` for item in data: value = item.getText() sql = "INSERT INTO table_name (column) VALUES ('{}')".format(value) cursor.execute(sql) db.commit() ``` 6. 关闭数据库连接 ``` cursor.close() db.close() ``` 以上就是使用Python爬取数据并保存到数据库的基本步骤。你可以根据具体需求来修改代码，比如添加异常处理、使用对象关系映射（ORM）库等。另外，请确保遵守网站的相关爬虫规则和法律法规，不要进行非法爬取。

阅读全文