python爬虫爬取豆瓣top100
时间: 2023-11-12 13:46:35 浏览: 108
你可以使用Python的爬虫库来爬取豆瓣电影的Top 100数据。以下是一个简单的爬虫示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movie_list = soup.find(class_='grid_view').find_all('li')
for movie in movie_list:
rank = movie.find(class_='pic').em.text
name = movie.find(class_='hd').a.span.text
rating = movie.find(class_='star').find(class_='rating_num').text
print(f'排名:{rank} 电影名:{name} 评分:{rating}')
```
以上代码中,我们使用requests库发送请求,并设置了User-Agent头信息,以避免被网站拦截。然后使用BeautifulSoup库解析网页内容,提取出电影的排名、名称和评分,并进行打印输出。
请注意,豆瓣网站有反爬机制,频繁请求可能会导致IP被封禁或者验证码出现。在实际应用中,请遵守网站的爬虫规则,合理控制请求频率。
阅读全文