如何用Python编程实现一个网络爬虫,从豆瓣网站抓取电影数据并将其存储为CSV文件?
时间: 2024-11-17 14:30:58 浏览: 15
在Python中,我们可以使用requests库来发送HTTP请求获取网页内容,然后BeautifulSoup库解析HTML,提取我们需要的数据。最后,利用pandas库将数据保存为CSV文件。以下是一个简单的步骤概述:
1. **安装所需库**:
首先需要安装`requests`, `beautifulsoup4`, 和 `pandas`,可以使用pip命令进行安装:
```bash
pip install requests beautifulsoup4 pandas
```
2. **编写爬虫代码**:
```python
import requests
from bs4 import BeautifulSoup
import csv
# 发送GET请求到豆瓣电影首页
url = "https://movie.douban.com/top250"
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML响应
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含电影信息的元素,例如电影标题、评分等
movie_data = []
for movie in soup.find_all('div', class_='hd'):
title = movie.find('span', class_='title').text
rating = movie.find('span', property='v:average').text
movie_data.append([title, rating])
# 将数据转换为DataFrame
df_movies = pd.DataFrame(movie_data, columns=['Title', 'Rating'])
# 保存数据为CSV文件
df_movies.to_csv('douban_movies.csv', index=False)
```
这个例子中,我们抓取了豆瓣电影Top 250页面上每部电影的标题和评分,并将其保存到了名为'douban_movies.csv'的文件中。
阅读全文