豆瓣电影top250数据爬取
时间: 2023-10-03 20:07:53 浏览: 74
爬取豆瓣电影top250数据可以分为以下几个步骤:
1. 发送HTTP请求:使用Python中的requests库发送HTTP请求,获取豆瓣电影top250网页内容。
2. 解析HTML:使用Python中的BeautifulSoup库解析HTML代码,获取电影信息。
3. 存储数据:将获取到的电影信息存储到本地文件或者数据库中。
下面是一个简单的爬取豆瓣电影top250数据的示例代码:
```python
import requests
from bs4 import BeautifulSoup
import csv
# 发送请求,获取网页内容
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
html = response.text
# 解析HTML,获取电影信息
soup = BeautifulSoup(html, 'html.parser')
movie_list = soup.find('ol', class_='grid_view').find_all('li')
data = []
for movie in movie_list:
title = movie.find('span', class_='title').text.strip()
rating_num = movie.find('span', class_='rating_num').text.strip()
quote = movie.find('span', class_='inq').text.strip()
data.append([title, rating_num, quote])
# 存储数据
with open('douban_top250.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow(['电影名称', '评分', '简介'])
for movie in data:
writer.writerow(movie)
```
在上面的代码中,我们首先发送HTTP请求获取豆瓣电影top250网页内容,然后使用BeautifulSoup解析HTML代码,获取电影信息。最后将电影信息存储到本地的CSV文件中。
阅读全文