首页使用Python爬虫爬取豆瓣电影top100

使用Python爬虫爬取豆瓣电影top100

时间: 2023-11-30 14:04:34 浏览: 197

好的，以下是Python爬虫爬取豆瓣电影top100的代码： ``` python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} movies = [] for i in range(0, 250, 25): req = requests.get(url, headers=headers, params={'start': i}) soup = BeautifulSoup(req.text, 'html.parser') movie_list = soup.find_all('div', {'class': 'hd'}) for movie in movie_list: title = movie.a.span.text.strip() movies.append(title) print(movies) ``` 这段代码使用 requests 和 BeautifulSoup 库来发送 HTTP 请求和解析 HTML 页面。首先，我们定义了 URL 和请求头部，然后使用 for 循环来分页获取 top250 的页面。对于每个页面，我们使用 BeautifulSoup 库来解析 HTML，并查找所有电影标题。最后，我们将每个电影标题添加到一个列表中，并输出整个列表。注意，爬虫需要遵守网站的 robots.txt 文件，以确保不会对网站造成影响或违反法规。如果您计划在生产环境中使用此爬虫，请确保您已经获得了豆瓣电影的授权。

阅读全文