首页如何用python爬取豆瓣电影top100的数据

如何用python爬取豆瓣电影top100的数据

时间: 2023-12-18 10:05:12 浏览: 99

可以使用Python中的requests库和BeautifulSoup库来爬取豆瓣电影top100的数据。以下是爬取豆瓣电影top100的代码示例： ```python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') movies = soup.select('.hd') for movie in movies: title = movie.select('.title')[0].text link = movie.select('a')[0]['href'] print(title, link) ``` 上述代码中，首先定义了要爬取的网址和请求头，然后使用requests库发送请求，获取网页源代码。接下来使用BeautifulSoup库解析网页源代码，提取出需要的电影标题和链接信息，并打印输出。需要注意的是，由于豆瓣网站有反爬虫机制，因此需要设置请求头，模拟浏览器发送请求。

阅读全文