python爬虫怎么翻页爬取
时间: 2023-09-26 20:13:40 浏览: 86
爬取网站的翻页通常需要以下几个步骤:
1. 确定翻页的规律,比如翻页时URL中是否有页码参数,每页显示的数据量等;
2. 编写爬虫程序,获取第一页的数据;
3. 解析第一页的数据,提取出需要的信息,并存储到本地或数据库中;
4. 根据翻页规律,生成下一页的URL,再次发送请求,获取数据;
5. 解析下一页的数据,提取出需要的信息,并存储到本地或数据库中;
6. 重复步骤4和步骤5,直到翻到最后一页。
下面是一个简单的示例代码,以翻页爬取豆瓣电影Top250为例:
```python
import requests
from bs4 import BeautifulSoup
start_url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
def get_movies(url):
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
movies = soup.select('.hd')
for movie in movies:
title = movie.select_one('.title').text
print(title)
for i in range(0, 250, 25): # 每页显示25部电影
url = start_url + '?start=' + str(i)
get_movies(url)
```
在示例代码中,我们首先定义了一个起始URL和请求头,然后定义了一个`get_movies`函数,用于解析每一页的数据并提取出电影名称。最后我们使用一个循环,通过修改URL中的`start`参数,依次翻到每一页并调用`get_movies`函数。
阅读全文