代码编写:使用到的函数: 使用requests库发送get请求,获取豆瓣电影TOP250的网页源代码。 使用beautifulsoup库对网页源代码进行解析,并提取出电影名称、评分、评价人数,年份,国家和主要类型。 使用到的文件存储方式:本地csv文件 爬取的网址:https://movie.douban.com/top250 代码展示:
时间: 2024-04-06 17:30:44 浏览: 58
以下是使用Python代码实现爬取豆瓣电影TOP250并保存至本地csv文件的示例:
```python
import requests
from bs4 import BeautifulSoup
import csv
# 发送get请求获取网页源代码
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
html = response.text
# 解析网页源代码并提取电影信息
soup = BeautifulSoup(html, 'html.parser')
movie_list = soup.find('ol', class_='grid_view').find_all('li')
# 保存电影信息至本地csv文件
with open('top250_movies.csv', 'w', newline='', encoding='utf-8') as file:
writer = csv.writer(file)
writer.writerow(['电影名称', '评分', '评价人数', '年份', '国家', '主要类型'])
for movie in movie_list:
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
rating_count = movie.find('div', class_='star').find_all('span')[3].text[:-3]
other_info = movie.find('div', class_='bd').p.text
year = other_info.split('/')[0].strip()
country = other_info.split('/')[1].strip()
genres = other_info.split('/')[2].strip()
writer.writerow([title, rating, rating_count, year, country, genres])
```
该代码通过发送get请求获取网页源代码,并使用beautifulsoup库对网页源代码进行解析,提取出电影名称、评分、评价人数、年份、国家和主要类型等信息,并将这些信息保存至本地csv文件中。
阅读全文