例题 1:爬取豆瓣电影Top250的电影标题和评分目标:从豆瓣电影Top250页面爬取电影标题和评分。网址:https://movie.douban.com/top250使用requests和lxml
时间: 2024-11-06 21:16:53 浏览: 21
首先,要在Python中通过requests库获取网页内容,然后使用lxml解析HTML,你可以按照以下步骤操作:
1. **安装所需库**:
确保已经安装了`requests`和`lxml`库,如果没有,可以使用pip安装:
```
pip install requests lxml
```
2. **编写爬虫代码**:
```python
import requests
from bs4 import BeautifulSoup
# 定义请求函数
def get_html(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
print(f"Error: 请求失败,状态码 {response.status_code}")
return None
# 解析HTML获取数据
def parse_top250(html):
soup = BeautifulSoup(html, "lxml")
movie_list = soup.find("ol", class_="grid_view") # 找到电影列表部分
movies_data = []
for item in movie_list.find_all("li"): # 遍历每个电影条目
title = item.h3.a.text # 获取电影标题
rating = float(item.strong.text) # 获取评分,注意需要转换为浮点数
movies_data.append((title, rating))
return movies_data
# 主程序
url = "https://movie.douban.com/top250"
html = get_html(url)
if html is not None:
data = parse_top250(html)
for movie in data:
print(f"电影标题: {movie[0]}, 评分: {movie[1]}")
阅读全文