python爬虫爬取电影信息一页
时间: 2023-05-25 15:01:33 浏览: 213
A:可以使用Python的第三方库BeautifulSoup和requests来爬取电影信息。
首先,我们需要用requests库请求目标网页并获取响应数据,然后将响应数据传给BeautifulSoup库进行解析。比如,以下代码可以爬取豆瓣电影中评分大于8.5的电影的名称、评分和导演:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
params = {'start': 0, 'filter': ''}
movie_list = []
while len(movie_list) < 10:
res = requests.get(url, headers=headers, params=params)
soup = BeautifulSoup(res.text, 'html.parser')
items = soup.find_all('div', class_='info')
for item in items:
rating = float(item.find('span', class_='rating_num').text)
if rating >= 8.5:
name = item.find('span', class_='title').text
director = item.find('p', class_='').text.split('\n')[1].split(':')[1].strip()
movie_list.append((name, rating, director))
params['start'] += 25
print(movie_list)
```
这个代码会输出评分大于8.5的前10部电影的名称、评分和导演,并存在一个名为movie_list的元组列表中。其中,我们使用了while循环和params参数来实现分页爬取电影信息。
阅读全文