爬取豆瓣top前250电影并储存在Excel中
时间: 2024-12-08 21:17:38 浏览: 59
基于python抓取豆瓣电影TOP250的数据及进行分析.zip
5星 · 资源好评率100%
爬取豆瓣Top 250电影并将其数据存入Excel的过程主要包括以下几个步骤:
1. **准备工作**:
- 安装必要的Python库:如`requests`, `beautifulsoup4` (用于HTML解析) 和 `pandas` (用于数据处理和导出Excel)。
- 获取豆瓣电影Top 250的链接,通常是固定URL加上排序的页码。你可以直接访问 https://movie.douban.com/top250 这个页面。
2. **编写爬虫脚本**:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 模拟浏览器发送请求
def get_html(url):
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)
return response.text
# 解析HTML,提取关键信息
def parse_top_movies(html):
soup = BeautifulSoup(html, 'html.parser')
movie_list = []
for item in soup.find_all('div', class_='hd'):
title = item.find('span', class_='title').text.strip()
rating = float(item.find('span', class_='rating_num').text)
movie_list.append({'标题': title, '评分': rating})
return movie_list
# 主函数,获取并保存数据
def main():
base_url = "https://movie.douban.com/top250"
all_movies = []
for i in range(1, 3): # 分页处理,这里假设总共有3页
url = f"{base_url}?start={i*25}"
html = get_html(url)
movies = parse_top_movies(html)
all_movies.extend(movies)
df = pd.DataFrame(all_movies)
df.to_excel('豆瓣Top250_movies.xlsx', index=False)
if __name__ == "__main__":
main()
```
3. **运行脚本**:
执行上述Python脚本,它会爬取每一页的电影数据,并将结果合并成一个DataFrame,最后导出到名为“豆瓣Top250_movies.xlsx”的Excel文件。
4. **检查结果**:
查看Excel文件确认数据是否已正确存储,包含了电影标题和评分。
阅读全文