首页用re方法爬取豆瓣电影T250的代码

用re方法爬取豆瓣电影T250的代码

时间: 2024-09-29 15:08:11 浏览: 44

在Python中，你可以使用requests和BeautifulSoup库结合来爬取豆瓣电影Top 250的数据。下面是一个简单的示例代码，用于抓取网页HTML并解析数据： ```python import requests from bs4 import BeautifulSoup # 请求豆瓣电影Top 250页面的HTML内容 url = "https://movie.douban.com/top250" response = requests.get(url) # 检查请求是否成功，如果状态码不是200，表示请求失败 if response.status_code == 200: # 使用BeautifulSoup解析HTML内容 soup = BeautifulSoup(response.text, 'lxml') # 找到包含电影信息的部分，这里通常是在`div`标签下的`li`列表项 movie_list = soup.find_all('li', class_='hd') # 假设电影标题在class='hd' for movie in movie_list: # 提取电影名称 title = movie.find('span', class_='title').text.strip() # 可能需要提取其他如导演、评分等信息，这取决于HTML结构 director = movie.find('span', class_='導演').text.strip() if '導演' in movie else '' rating = movie.find('span', class_='rating_num').text.strip() if 'rating_num' in movie else '' print(f"电影名: {title}\n导演: {director}\n评分: {rating}\n---\n") else: print("获取页面失败") #

阅读全文