首页python爬虫抓取豆瓣top250并存于excel中

python爬虫抓取豆瓣top250并存于excel中

时间: 2024-12-20 08:29:32 浏览: 2

Python爬虫抓取豆瓣Top250电影数据并将其存储到Excel文件中，可以分为以下几个步骤： 1. **安装必要的库**：首先需要安装`requests`库用于发送HTTP请求获取网页内容，以及`BeautifulSoup`库来解析HTML文档，`pandas`库用于处理数据，并将数据保存到Excel。 ```bash pip install requests beautifulsoup4 pandas openpyxl ``` 2. **编写爬虫脚本**： ```python import requests from bs4 import BeautifulSoup import pandas as pd def get_douban_top250(url="https://movie.douban.com/top250"): response = requests.get(url) soup = BeautifulSoup(response.text, 'lxml') # 解析HTML结构找到电影信息 movie_list = [] for item in soup.select('.hd'): title = item.find('span', class_='title').text.strip() rating_num = item.find('span', class_='rating_num').text.strip() link = item.find('a')['href'] movie_list.append({'标题': title, '评分人数': rating_num, '链接': link}) # 创建DataFrame并将数据保存到Excel df = pd.DataFrame(movie_list) df.to_excel('豆瓣Top250_movies.xlsx', index=False) get_douban_top250() ``` 3. **运行脚本**：将上述代码保存为`.py`文件（如`douban_scraper.py`），然后在命令行中运行它。当你运行这个脚本后，它会下载豆瓣Top250页面的内容，解析出电影名称、评分人数和链接，然后把这些数据插入一个新的Excel文件`豆瓣Top250_movies.xlsx`中。

阅读全文