如何编写Python爬虫程序,从电商网站获取图书信息并存储到MSSQL Server数据库?请提供一个使用requests和pymysql库的示例代码。
时间: 2024-11-13 16:34:36 浏览: 31
为了编写一个将电商网站图书信息爬取并存储到MSSQL Server数据库的Python爬虫程序,你可以参考这份资料:《Python爬虫代码:抓取当当、京东、亚马逊图书信息》。该资料不仅包含了爬取网页数据的实例,还涵盖了如何使用pymysql库与MSSQL Server进行交互的细节。以下是实现上述功能的关键步骤和示例代码:
参考资源链接:[Python爬虫代码:抓取当当、京东、亚马逊图书信息](https://wenku.csdn.net/doc/2dtjg0zg7z?spm=1055.2569.3001.10343)
首先,使用`requests`库获取网页内容,并利用`BeautifulSoup`进行解析。例如,获取亚马逊图书页面的内容并解析出图书信息:
```python
import requests
from bs4 import BeautifulSoup
def get_book_info(url):
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# 假设书名在某个特定的HTML标签中,例如class为'book-title'的标签
book_titles = soup.find_all(class_='book-title')
books_info = []
for title in book_titles:
book = {}
book['title'] = title.get_text().strip()
# 继续提取其他信息,如作者、价格等
books_info.append(book)
return books_info
else:
print('Failed to retrieve the webpage')
return None
```
接下来,使用`pymysql`库将提取的图书信息存储到MSSQL Server数据库中。首先需要安装并导入pymysql库,然后建立与数据库的连接,并创建一个游标对象执行SQL语句:
```python
import pymysql
# 数据库连接参数
db_params = {
'host': 'your_host', # 数据库地址
'port': 3306, # 端口号,默认为3306
'user': 'your_user', # 用户名
'password': 'your_password', # 密码
'db': 'your_db', # 数据库名
'charset': 'utf8mb4', # 字符集
}
# 建立连接
connection = pymysql.connect(**db_params)
cursor = connection.cursor()
# 创建表格的SQL语句
create_table_sql =
参考资源链接:[Python爬虫代码:抓取当当、京东、亚马逊图书信息](https://wenku.csdn.net/doc/2dtjg0zg7z?spm=1055.2569.3001.10343)
阅读全文