首页爬取豆瓣top250所有信息

爬取豆瓣top250所有信息

时间: 2023-11-08 17:33:13 浏览: 76

要爬取豆瓣电影Top250的所有信息，可以使用Python的requests和BeautifulSoup库来完成。以下是一个简单的爬取示例： ```python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} movie_list = [] for i in range(0, 250, 25): params = { 'start': str(i), 'filter': '' } response = requests.get(url, headers=headers, params=params) soup = BeautifulSoup(response.text, 'html.parser') items = soup.find_all('div', class_='item') for item in items: title = item.find('span', class_='title').text.strip() info = item.find('div', class_='bd').p.text.strip() rating = item.find('span', class_='rating_num').text.strip() movie_list.append({'title': title, 'info': info, 'rating': rating}) print(movie_list) ``` 此代码首先定义了要爬取的网址和请求头部，然后使用循环和参数来爬取每一页的电影，使用BeautifulSoup解析HTML，从中获取电影的标题、简介和评分，并将其添加到一个字典中。最后，输出电影列表。请注意，此代码仅作为示例，在实际使用中需要注意网站的规则和使用条款。

阅读全文