使用python爬取豆瓣top250数据的代码,爬取下一页
时间: 2023-09-28 19:11:35 浏览: 180
以下是使用Python爬取豆瓣Top250电影数据并翻页的代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
while url:
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movie_list = soup.find_all('div', class_='hd')
for movie in movie_list:
print(movie.a.span.text)
next_page = soup.find('span', class_='next').a
url = next_page['href'] if next_page else None
```
首先,我们定义了豆瓣Top250电影页面的URL地址和请求头。然后使用while循环来循环翻页,每次请求一个页面并解析其中的电影信息。我们使用BeautifulSoup库来解析HTML页面,并通过find_all()方法找到所有电影信息所在的`<div>`标签。最后,我们通过find()方法找到下一页的链接,并将其赋值给`url`变量,以便下一次循环使用。如果没有下一页,则将`url`变量设为None,停止循环。
需要注意的是,为了避免被豆瓣反爬虫机制检测到,我们在请求头中添加了User-Agent参数,模拟了一个正常浏览器的访问。另外,我们使用了延迟加载技术,只有当需要翻页时才会请求下一页的链接,以降低对豆瓣服务器的负荷。
阅读全文