Pythonbs4 urllib爬取豆瓣250数据
时间: 2024-09-15 18:06:20 浏览: 43
Python中的BeautifulSoup库(简称BS4)和urllib模块常常一起用于网页抓取,特别是从HTML或XML文档中提取信息。首先,你需要安装这两个库,可以使用pip命令:
```bash
pip install beautifulsoup4 requests
```
下面是一个简单的步骤说明如何使用它们来爬取豆瓣电影Top250的数据:
1. 导入所需库:
```python
import requests
from bs4 import BeautifulSoup
```
2. 发送GET请求获取网页内容:
```python
url = "https://movie.douban.com/top250"
response = requests.get(url)
```
3. 检查请求是否成功并处理响应:
```python
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
else:
print(f"请求失败,状态码:{response.status_code}")
```
4. 找到需要的信息,例如电影标题、评分等,并存储起来:
```python
data = []
for movie in soup.select('.item'):
title = movie.select_one('.title').text.strip()
rating = movie.select_one('.rating_num').string
data.append({"title": title, "rating": rating})
```
5. 数据整理和打印:
```python
for movie in data:
print(f"电影名称:{movie['title']}, 评分:{movie['rating']}")
```
注意:实际操作时要遵守网站的robots.txt规则,尊重版权,不要过于频繁地访问以免对服务器造成压力。
阅读全文