用Python爬取豆瓣电影top250
时间: 2023-11-05 11:55:16 浏览: 38
好的,以下是爬取豆瓣电影top250的Python代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
movie_list = []
for i in range(0, 250, 25):
params = {'start': str(i), 'filter': ''}
res = requests.get(url, headers=headers, params=params)
soup = BeautifulSoup(res.text, 'html.parser')
movies = soup.select('div.hd')
for m in movies:
movie = m.a.span.text.strip()
movie_list.append(movie)
for i, m in enumerate(movie_list):
print(str(i+1) + '. ' + m)
```
代码中使用了requests和BeautifulSoup库,首先我们定义了要爬取的豆瓣电影top250的URL和请求头中的User-Agent。然后使用循环遍历每一页的电影,每一页有25部电影,所以循环步长为25。每次请求时需要传入一个start参数,它表示从第几部电影开始,filter参数为空表示不过滤。在每一页的HTML中,我们使用CSS选择器选择出包含电影名字的div标签,然后提取出电影名字,加入到movie_list中。
最后我们遍历movie_list,将每部电影的名字和排名输出到控制台。