用python爬取蔚蓝书店https://www.welan.com/上的数据 ,采集的内容有图书封面、书名、ISBN、作者、价格、出版日期、出版社等。
时间: 2024-06-08 16:12:26 浏览: 159
基于Python的网上购物数据爬取.pdf
好的,这里给你提供一个爬取蔚蓝书店的Python代码,你可以根据需要进行修改:
```python
import requests
from bs4 import BeautifulSoup
# 定义请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 定义爬取函数
def crawl_welan_bookstore():
url = 'https://www.welan.com/'
# 发送请求
response = requests.get(url, headers=headers)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 获取图书列表
book_list = soup.find_all('div', class_='book-item')
# 遍历图书列表,获取每本书的信息
for book in book_list:
# 获取书名
book_name = book.find('div', class_='book-name').text.strip()
# 获取ISBN
book_isbn = book.find('div', class_='book-isbn').text.strip()
# 获取作者
book_author = book.find('div', class_='book-author').text.strip()
# 获取价格
book_price = book.find('div', class_='book-price').find('span').text.strip()
# 获取出版日期
book_publish_date = book.find('div', class_='book-publish-date').text.strip()
# 获取出版社
book_publisher = book.find('div', class_='book-publisher').text.strip()
# 获取图书封面
book_cover_url = book.find('div', class_='book-cover').find('img')['src']
# 输出图书信息
print('书名:', book_name)
print('ISBN:', book_isbn)
print('作者:', book_author)
print('价格:', book_price)
print('出版日期:', book_publish_date)
print('出版社:', book_publisher)
print('图书封面:', book_cover_url)
print('-------------------------------------')
# 调用爬取函数
crawl_welan_bookstore()
```
运行代码后,会输出每本书的信息,包括书名、ISBN、作者、价格、出版日期、出版社和图书封面。你可以根据需要修改代码,将爬取到的数据保存到文件或数据库中。
阅读全文