首页豆瓣电影top250数据爬取并保存到Excel

豆瓣电影top250数据爬取并保存到Excel

时间: 2024-09-27 09:13:47 浏览: 74

豆瓣电影Top 250的数据爬取通常涉及到网络爬虫技术，使用Python的库如BeautifulSoup、requests等可以方便地从豆瓣网站获取数据。以下是简单的步骤： 1. **安装必要的库**： - `requests`用于发送HTTP请求获取网页内容 - `beautifulsoup4`用于解析HTML文档提取所需信息 - `pandas`用于创建DataFrame存储数据 - `openpyxl`或`xlsxwriter`用于将数据写入Excel文件 2. **编写爬虫脚本**： - 首先，通过requests库发送GET请求获取Top 250页面的HTML源码 - 然后，使用BeautifulSoup解析这个HTML，找到包含电影名、评分、导演和主演等信息的部分 - 创建一个字典或pandas DataFrame来储存每部电影的数据 ```python import requests from bs4 import BeautifulSoup import pandas as pd def get_top250_data(): url = "https://movie.douban.com/top250" # 发送请求 response = requests.get(url) # 解析响应 soup = BeautifulSoup(response.text, 'lxml') # 提取数据（这需要根据实际HTML结构调整） movie_list = [] for each in soup.find_all('div', class_='hd'): title = each.find('span', class_='title').text rating = each.find('span', class_='rating_num').text director = each.parent.parent.find('span', class_='導演').text actor = each.parent.parent.find('span', class_='主演').text movie_list.append({ '标题': title, '评分': rating, '导演': director, '演员': actor }) data_df = pd.DataFrame(movie_list) # 导出到Excel data_df.to_excel('豆瓣电影Top250.xlsx', index=False) get_top250_data() ``` 3. **注意事项**： - 豆瓣可能会有反爬机制，频繁请求可能导致IP被封禁。在实际操作前，记得检查其robots.txt文件以及使用代理IP或设置延迟。 - 数据抓取要遵守网站的使用协议，尊重版权。

阅读全文