使用python对豆瓣上的电影前100名的数据进行抓取,源码
时间: 2024-05-08 18:16:18 浏览: 11
抓取豆瓣电影前100名数据的Python代码如下:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movie_list = soup.find('ol', class_='grid_view').find_all('li')
for movie in movie_list:
rank = movie.find('em').text
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
quote = movie.find('span', class_='inq')
if quote:
quote = quote.text
else:
quote = ''
print(rank, title, rating, quote)
```
代码解释:
首先,我们需要导入requests和BeautifulSoup库。
然后,我们指定了豆瓣电影Top250的网址和请求头部信息。
接着,我们发送请求并获取相应内容。
使用BeautifulSoup解析页面,找到包含电影信息的ol标签,并遍历所有li标签,提取出电影排名、电影名称、评分和简介。
最后,我们打印出提取的电影信息。
注意:在进行网页爬取时,应该尽量遵守网站的爬取规则,如果对方网站对爬虫有反爬虫机制,我们应该进行一定的反反爬虫策略,以保证爬取效率和数据准确性。