python爬虫爬取豆瓣图书网页翻页
时间: 2023-11-11 12:47:29 浏览: 84
在豆瓣图书网页中,翻页是通过链接中的“start”参数来实现的。下一页的“start”值等于上一页的“start”值加上每页显示的图书数量。因此,我们可以通过修改“start”参数的值来实现翻页。
以下是一个简单的Python爬虫程序,可以爬取豆瓣图书网页的信息并实现翻页。
```python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/top250'
start = 0 # 起始位置
count = 25 # 每页显示的图书数量
while True:
# 构造URL
params = {'start': start, 'count': count}
response = requests.get(url, params=params)
soup = BeautifulSoup(response.text, 'html.parser')
# 提取图书信息
books = soup.find_all('div', class_='pl2')
for book in books:
title = book.find('a')['title']
link = book.find('a')['href']
print(title, link)
# 判断是否还有下一页
next_link = soup.find('span', class_='next').find('a')
if next_link:
start += count
url = next_link['href']
else:
break
```
这个程序会从豆瓣图书网页的排行榜中爬取前250本图书的信息,并实现翻页。每页显示25本图书,可以通过修改`count`参数来控制每页显示的图书数量。
阅读全文