Typ使用函数爬取蔚蓝书店上的数据,采集的内容有图书封面、书名、ISBN、作者、价格、出版日期、出版社等
时间: 2023-12-28 16:17:46 浏览: 78
以下是一个Python的示例代码,使用beautifulsoup4和requests库来爬取蔚蓝书店网站上的图书信息:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://www.bluebook.net.cn/'
# 获取网页内容
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 通过CSS选择器来获取图书信息
books = soup.select('.book-list li')
for book in books:
# 获取图书封面
cover = book.select_one('.book-img img')['src']
# 获取书名
title = book.select_one('.book-name a').text.strip()
# 获取ISBN
isbn = book.select_one('.book-isbn').text.strip()
# 获取作者
author = book.select_one('.book-author').text.strip()
# 获取价格
price = book.select_one('.book-price').text.strip()
# 获取出版日期
pub_date = book.select_one('.book-pub-date').text.strip()
# 获取出版社
publisher = book.select_one('.book-publisher').text.strip()
# 打印图书信息
print('封面:', cover)
print('书名:', title)
print('ISBN:', isbn)
print('作者:', author)
print('价格:', price)
print('出版日期:', pub_date)
print('出版社:', publisher)
print('=========================')
```
需要注意的是,以上代码只能爬取蔚蓝书店首页上的图书信息,如果要爬取更多的图书信息,需要模拟翻页操作,并修改相应的CSS选择器。此外,爬取网站数据时需要遵守相关法律法规和网站使用协议,不得进行非法操作。
阅读全文