用python爬取豆瓣电影的代码
时间: 2023-09-24 22:10:03 浏览: 36
基于Python Scrapy实现的豆瓣电影数据采集爬虫系统 含数据库SQL和全部源代码
5星 · 资源好评率100%
好的,以下是一个简单的用 Python 爬取豆瓣电影 Top250 的示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='item')
for movie in movies:
title = movie.find('span', class_='title').text.strip()
rating = movie.find('span', class_='rating_num').text.strip()
director = movie.find('div', class_='bd').p.text.split()[0]
actors = movie.find('div', class_='bd').p.text.split()[1:]
year = movie.find('span', class_='year').text.strip('()')
print(title, rating, director, actors, year)
```
该代码首先向豆瓣电影 Top250 页面发送 HTTP 请求,然后使用 BeautifulSoup 库将响应的 HTML 页面解析成 BeautifulSoup 对象。接着,使用 find_all 方法查找所有 class 为 "item" 的 div 标签,然后在每个电影中查找电影名称、评分、导演、演员和上映年份等信息,并打印输出。
阅读全文