入门python爬取豆瓣top250
时间: 2024-10-11 16:17:32 浏览: 33
入门Python爬取豆瓣Top250电影列表通常会涉及使用requests库获取网页数据,BeautifulSoup库解析HTML,以及pandas库处理数据。以下是简单的步骤:
1. **安装必要的库**:
首先,你需要安装`requests`、`beautifulsoup4`和`pandas`,可以使用pip命令行:
```
pip install requests beautifulsoup4 pandas
```
2. **编写爬虫脚本**:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 目标URL
url = "https://movie.douban.com/top250"
# 发送GET请求
response = requests.get(url)
# 检查请求状态码
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 找到包含电影信息的部分,通常是每个电影条目的标题和评分
movie_data = []
for item in soup.select('.item'):
title = item.select_one('.title').text.strip()
rating = item.select_one('.rating_num').text
movie_data.append({'标题': title, '评分': rating})
# 将数据存储为DataFrame
df = pd.DataFrame(movie_data)
print(df)
else:
print("请求失败")
```
3. **运行并保存结果**:
运行上述脚本,它将打印出豆瓣Top250电影的标题和评分。如果你想保存数据,可以将其导出到CSV文件:
```python
df.to_csv('douban_top250.csv', index=False)
```
注意:
阅读全文