首页re-豆瓣电影网爬取代码

re-豆瓣电影网爬取代码

时间: 2024-10-13 09:10:15 浏览: 29

re-豆瓣电影网爬虫通常是指使用Python等编程语言，配合requests库获取网页数据，并利用BeautifulSoup、Scrapy等解析工具分析HTML结构，提取豆瓣电影网站上的信息，如电影名、评分、简介等。下面是一个简单的Python爬虫示例，使用BeautifulSoup： ```python import requests from bs4 import BeautifulSoup # 目标URL url = "https://movie.douban.com/top250" def get_movie_info(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'lxml') # 找到电影列表元素 movie_list = soup.select('.grid_view li div.hd') for movie in movie_list: title = movie.find('a', class_='title').text rating = movie.find('span', class_='rating_num').text link = movie.find('a')['href'] print(f"电影名: {title}\n评分: {rating}\n链接: {link}\n") get_movie_info(url) ``` 这个脚本会打印出豆瓣电影Top250的一些基本信息。请注意，实际操作时需要遵守网站的robots.txt协议，尊重版权并避免对服务器造成过大负担。

阅读全文