爬取豆瓣电影 top250 数据的代码
时间: 2024-12-31 14:48:08 浏览: 8
当然,我们可以使用Python的`requests`库来发送HTTP请求获取网页数据,然后用`BeautifulSoup`或`lxml`解析HTML。以下是一个基本的示例,用于爬取豆瓣电影Top250的标题和评分:
```python
import requests
from bs4 import BeautifulSoup
# 请求豆瓣电影Top250的URL
url = 'https://movie.douban.com/top250'
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功(状态码200表示成功)
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'lxml')
# 找到电影列表的容器
movie_list = soup.find('ol', class_='grid_view')
# 提取每个电影的信息
for item in movie_list.find_all('li', class_='hd'):
title = item.h3.a.text.strip() # 电影标题
rating = item.strong.text.strip() # 评分
print(f"电影标题: {title}, 评分: {rating}")
else:
print("请求失败,状态码:", response.status_code)
```
这段代码会输出每个电影的标题和评分,但请注意,直接爬取可能会违反网站的Robots协议,所以最好先确认该网站对爬虫的使用政策。
阅读全文