用python爬取豆瓣top250电影的上映年份和导演
时间: 2023-08-30 12:06:56 浏览: 40
好的,我可以为您提供一些思路和代码。
首先,我们需要用 Python 的 requests 库和 BeautifulSoup 库来爬取豆瓣 top250 电影页面的内容。然后,我们可以用正则表达式或者 BeautifulSoup 库来提取每一部电影的上映年份和导演信息。
以下是代码示例:
```python
import requests
from bs4 import BeautifulSoup
import re
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movie_list = soup.find('ol', class_='grid_view').find_all('li')
for movie in movie_list:
# 提取电影的上映年份信息
year = movie.find('div', class_='bd').find('p', class_='').text
year = re.findall('\d{4}', year)[0]
# 提取电影的导演信息
director = movie.find('div', class_='bd').find('p', class_='').text
director = re.findall('导演: (.+?)\n', director)[0]
print(year, director)
```
以上代码通过 requests 库发送 GET 请求,获取豆瓣 top250 电影页面的 HTML 内容,并用 BeautifulSoup 库解析 HTML。然后,我们通过查看网页源代码,找到包含电影信息的 ol 标签,并用 find_all() 方法获取每一部电影的 li 标签。接下来,我们遍历每一部电影,使用正则表达式或者 BeautifulSoup 库提取电影的上映年份和导演信息,并打印输出。
希望这个示例代码对您有所帮助!