使用Python爬虫爬取豆瓣电影top100
时间: 2023-11-30 14:04:34 浏览: 197
好的,以下是Python爬虫爬取豆瓣电影top100的代码:
``` python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
movies = []
for i in range(0, 250, 25):
req = requests.get(url, headers=headers, params={'start': i})
soup = BeautifulSoup(req.text, 'html.parser')
movie_list = soup.find_all('div', {'class': 'hd'})
for movie in movie_list:
title = movie.a.span.text.strip()
movies.append(title)
print(movies)
```
这段代码使用 requests 和 BeautifulSoup 库来发送 HTTP 请求和解析 HTML 页面。首先,我们定义了 URL 和请求头部,然后使用 for 循环来分页获取 top250 的页面。对于每个页面,我们使用 BeautifulSoup 库来解析 HTML,并查找所有电影标题。最后,我们将每个电影标题添加到一个列表中,并输出整个列表。
注意,爬虫需要遵守网站的 robots.txt 文件,以确保不会对网站造成影响或违反法规。如果您计划在生产环境中使用此爬虫,请确保您已经获得了豆瓣电影的授权。
阅读全文