python爬虫抓取豆瓣top250并存于excel中
时间: 2024-12-20 08:29:32 浏览: 2
Python爬虫抓取豆瓣Top250电影数据并将其存储到Excel文件中,可以分为以下几个步骤:
1. **安装必要的库**:首先需要安装`requests`库用于发送HTTP请求获取网页内容,以及`BeautifulSoup`库来解析HTML文档,`pandas`库用于处理数据,并将数据保存到Excel。
```bash
pip install requests beautifulsoup4 pandas openpyxl
```
2. **编写爬虫脚本**:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
def get_douban_top250(url="https://movie.douban.com/top250"):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
# 解析HTML结构找到电影信息
movie_list = []
for item in soup.select('.hd'):
title = item.find('span', class_='title').text.strip()
rating_num = item.find('span', class_='rating_num').text.strip()
link = item.find('a')['href']
movie_list.append({'标题': title, '评分人数': rating_num, '链接': link})
# 创建DataFrame并将数据保存到Excel
df = pd.DataFrame(movie_list)
df.to_excel('豆瓣Top250_movies.xlsx', index=False)
get_douban_top250()
```
3. **运行脚本**:将上述代码保存为`.py`文件(如`douban_scraper.py`),然后在命令行中运行它。
当你运行这个脚本后,它会下载豆瓣Top250页面的内容,解析出电影名称、评分人数和链接,然后把这些数据插入一个新的Excel文件`豆瓣Top250_movies.xlsx`中。
阅读全文