re-豆瓣电影网爬取代码
时间: 2024-10-13 09:10:15 浏览: 29
re-豆瓣电影网爬虫通常是指使用Python等编程语言,配合requests库获取网页数据,并利用BeautifulSoup、Scrapy等解析工具分析HTML结构,提取豆瓣电影网站上的信息,如电影名、评分、简介等。下面是一个简单的Python爬虫示例,使用BeautifulSoup:
```python
import requests
from bs4 import BeautifulSoup
# 目标URL
url = "https://movie.douban.com/top250"
def get_movie_info(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
# 找到电影列表元素
movie_list = soup.select('.grid_view li div.hd')
for movie in movie_list:
title = movie.find('a', class_='title').text
rating = movie.find('span', class_='rating_num').text
link = movie.find('a')['href']
print(f"电影名: {title}\n评分: {rating}\n链接: {link}\n")
get_movie_info(url)
```
这个脚本会打印出豆瓣电影Top250的一些基本信息。请注意,实际操作时需要遵守网站的robots.txt协议,尊重版权并避免对服务器造成过大负担。
阅读全文