python爬虫豆瓣top250代码
时间: 2023-10-24 10:06:57 浏览: 127
这里是一个简单的Python爬虫豆瓣Top250的代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
movie_list = []
for i in range(0, 250, 25):
res = requests.get(url, headers=headers, params={'start': str(i)})
soup = BeautifulSoup(res.text, 'html.parser')
movies = soup.find_all('div', {'class': 'hd'})
for movie in movies:
title = movie.a.span.text.strip()
link = movie.a['href']
movie_list.append({'title': title, 'link': link})
for movie in movie_list:
print(movie['title'], movie['link'])
```
这个代码使用了requests和BeautifulSoup库来发送HTTP请求和解析HTML页面。它首先定义了豆瓣Top250页面的URL和HTTP请求标头,然后通过循环遍历从第一页到第十页的所有页面,并使用BeautifulSoup从页面中提取电影标题和链接信息。最后,将所有电影信息存储在一个列表中,并打印出来。
阅读全文