首页用python爬取豆瓣top250 的电影数据的代码

用python爬取豆瓣top250 的电影数据的代码

时间: 2023-08-31 22:11:19 浏览: 89

好的，这是一个爬取豆瓣 Top250 电影数据的 Python 爬虫代码： ```python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} movie_list = [] for i in range(0, 10): link = url + '?start=' + str(i*25) r = requests.get(link, headers=headers) soup = BeautifulSoup(r.text, 'html.parser') div_list = soup.find_all('div', class_='hd') for each in div_list: movie = each.a.span.text.strip() movie_list.append(movie) print(movie_list) ``` 该爬虫使用 requests 库发送 GET 请求获取网页内容，使用 BeautifulSoup 库解析 HTML。将豆瓣 Top250 分为 10 页，循环遍历每一页，得到每一页的 HTML 内容，使用 BeautifulSoup 找到电影名称所在的 div 标签，获取其中的电影名称，再将电影名称添加到列表中。最后打印出所有电影名称的列表。

阅读全文