python爬虫豆瓣图书代码讲解
时间: 2023-11-08 19:51:21 浏览: 111
以下是一个简单的Python爬虫豆瓣图书的示例代码,注释中会对代码进行讲解:
```python
import requests
from bs4 import BeautifulSoup
# 待爬取的url地址
url = 'https://book.douban.com/top250'
# 发送请求,获取页面内容
response = requests.get(url)
# 使用BeautifulSoup解析页面
soup = BeautifulSoup(response.content, 'html.parser')
# 找到所有的书籍条目
books = soup.find_all('tr', class_='item')
# 遍历所有的书籍条目,获取书籍信息
for book in books:
# 书籍名称
title = book.find('div', class_='pl2').find('a')['title']
# 书籍作者
author = book.find('p', class_='pl').get_text()
# 书籍评分
rating = book.find('span', class_='rating_nums').get_text()
# 书籍简介
intro = book.find('span', class_='inq').get_text()
print('书籍名称:', title)
print('书籍作者:', author)
print('书籍评分:', rating)
print('书籍简介:', intro)
print('-------------------------------------------')
```
代码中首先引入了requests和BeautifulSoup库,用于发送网络请求和解析页面。然后定义了待爬取的url地址,并使用requests库发送请求获取页面内容。接着使用BeautifulSoup库解析页面,找到所有的书籍条目。最后遍历所有的书籍条目,获取书籍的名称、作者、评分和简介等信息,并打印输出。
需要注意的是,如果要爬取更多的书籍信息,需要在代码中实现翻页功能,即获取下一页的url地址并发送请求,再进行页面解析和信息提取。
阅读全文