用pythonrequests豆瓣电影top250为例,爬出这250部电影,爬取所有电影的信息。
时间: 2024-01-08 13:03:33 浏览: 104
好的,我可以帮助您完成这个任务。以下是您需要了解的步骤:
1. 用Python中的requests库向豆瓣电影网站发送请求,获取网页数据。
2. 解析网页数据,提取出所需信息,例如电影名称、导演、主演、评分、年份、剧情简介等。
3. 将所提取的信息保存到本地文件或数据库中,以便后续分析和使用。
以下是一个示例代码,可以帮助您开始编写程序:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movie_list = soup.find(class_='grid_view').find_all('li')
for movie in movie_list:
name = movie.find(class_='title').string
rating = movie.find(class_='rating_num').string
year = movie.find(class_='bd').find('p').text.split('\n')[1].strip().split('/')[0]
director, actors = movie.find(class_='bd').find('p').text.split('\n')[2].strip().split('\xa0\xa0\xa0')
summary = movie.find(class_='quote').string
print('电影名称:', name)
print('评分:', rating)
print('年份:', year)
print('导演:', director)
print('主演:', actors)
print('简介:', summary)
print('----------------------')
```
希望这对您有帮助!
阅读全文