帮我爬取豆瓣网前top250的影视数据
时间: 2023-09-16 12:07:40 浏览: 79
豆瓣Top250_爬取豆瓣Top250_
好的,我可以帮你爬取豆瓣网前top250的影视数据。具体步骤如下:
1. 使用Python的requests库发送HTTP请求,获取豆瓣网前top250的影视页面的HTML代码。
2. 使用Python的BeautifulSoup库解析HTML代码,提取出每部影视的名称、评分、导演、演员、年份、类型以及海报等信息。
3. 将提取出来的数据存储到本地文件或者数据库中。
以下是Python代码示例:
``` python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movies = []
for item in soup.select('.item'):
title = item.select_one('.title').get_text().strip()
rating = item.select_one('.rating_num').get_text().strip()
director = item.select('div > a')[0].get_text().strip()
actors = item.select('div > a')[1].get_text().strip()
year = item.select('.bd > p')[1].get_text().strip().split('\n')[0].split('/')[0].strip()
genre = item.select('.bd > p')[1].get_text().strip().split('\n')[0].split('/')[1].strip()
poster = item.select_one('.pic img')['src']
movie = {'title': title, 'rating': rating, 'director': director, 'actors': actors, 'year': year, 'genre': genre, 'poster': poster}
movies.append(movie)
print(movies)
```
这段代码可以爬取豆瓣网前top250的影视数据,并将数据存储在一个列表中。你可以根据需要对数据进行进一步的处理和存储。
阅读全文