首页用Python爬取豆瓣电影top250

用Python爬取豆瓣电影top250

时间: 2023-11-05 11:55:16 浏览: 38

好的，以下是爬取豆瓣电影top250的Python代码： ```python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} movie_list = [] for i in range(0, 250, 25): params = {'start': str(i), 'filter': ''} res = requests.get(url, headers=headers, params=params) soup = BeautifulSoup(res.text, 'html.parser') movies = soup.select('div.hd') for m in movies: movie = m.a.span.text.strip() movie_list.append(movie) for i, m in enumerate(movie_list): print(str(i+1) + '. ' + m) ``` 代码中使用了requests和BeautifulSoup库，首先我们定义了要爬取的豆瓣电影top250的URL和请求头中的User-Agent。然后使用循环遍历每一页的电影，每一页有25部电影，所以循环步长为25。每次请求时需要传入一个start参数，它表示从第几部电影开始，filter参数为空表示不过滤。在每一页的HTML中，我们使用CSS选择器选择出包含电影名字的div标签，然后提取出电影名字，加入到movie_list中。最后我们遍历movie_list，将每部电影的名字和排名输出到控制台。