python爬虫基础案例——爬取猫眼电影并保存数据到excel
时间: 2024-12-11 08:36:34 浏览: 28
Python爬虫基础案例通常从简单的网页抓取开始,比如爬取猫眼电影的数据。这里以`requests`库获取网页内容,然后用`BeautifulSoup`解析HTML,提取所需信息,并通过`pandas`将数据保存到Excel文件为例:
首先,你需要安装必要的库:
```bash
pip install requests beautifulsoup4 pandas openpyxl
```
下面是一个基本的Python爬虫脚本示例,假设我们要爬取电影名称、评分和主演信息:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 爬取URL
url = "https://maoyan.com/board/4"
response = requests.get(url)
# 解析HTML
soup = BeautifulSoup(response.text, 'lxml')
# 查找需要的数据元素,这里假设电影列表在class为'movie-list'
movies_data = soup.find_all(class_='movie-list')
# 创建空列表存储数据
data_list = []
# 遍历每部电影
for movie in movies_data:
title = movie.find('a', class_='title').text
rating = movie.find('i', class_='rating_num')['title']
stars = ', '.join(movie.find_all('span', class_='name'))
# 将数据添加到列表
data_list.append([title, rating, stars])
# 将数据转换为DataFrame
df_movies = pd.DataFrame(data_list, columns=['电影名称', '评分', '主演'])
# 保存到Excel文件
filename = '猫眼电影数据.xlsx'
df_movies.to_excel(filename, index=False)
```
这个例子中,爬虫会定期访问指定的猫眼电影页面,提取每个电影的基本信息,然后将其保存到一个名为`猫眼电影数据.xlsx`的Excel文件中。
阅读全文