首页例题 1：爬取豆瓣电影Top250的电影标题和评分目标：从豆瓣电影Top250页面爬取电影标题和评分。网址：https://movie.douban.com/top250使用requests和lxml

例题 1：爬取豆瓣电影Top250的电影标题和评分目标：从豆瓣电影Top250页面爬取电影标题和评分。网址：https://movie.douban.com/top250使用requests和lxml

时间: 2024-11-06 21:16:53 浏览: 21

首先，要在Python中通过requests库获取网页内容，然后使用lxml解析HTML，你可以按照以下步骤操作： 1. **安装所需库**: 确保已经安装了`requests`和`lxml`库，如果没有，可以使用pip安装： ``` pip install requests lxml ``` 2. **编写爬虫代码**: ```python import requests from bs4 import BeautifulSoup # 定义请求函数 def get_html(url): response = requests.get(url) if response.status_code == 200: return response.text else: print(f"Error: 请求失败，状态码 {response.status_code}") return None # 解析HTML获取数据 def parse_top250(html): soup = BeautifulSoup(html, "lxml") movie_list = soup.find("ol", class_="grid_view") # 找到电影列表部分 movies_data = [] for item in movie_list.find_all("li"): # 遍历每个电影条目 title = item.h3.a.text # 获取电影标题 rating = float(item.strong.text) # 获取评分，注意需要转换为浮点数 movies_data.append((title, rating)) return movies_data # 主程序 url = "https://movie.douban.com/top250" html = get_html(url) if html is not None: data = parse_top250(html) for movie in data: print(f"电影标题: {movie[0]}, 评分: {movie[1]}")

阅读全文