python爬取豆瓣电影top250
时间: 2023-10-07 09:14:04 浏览: 88
Python 爬取豆瓣电影Top250
好的,以下是Python爬取豆瓣电影Top250的示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
items = soup.select('.item')
for item in items:
title = item.select('.title')[0].text
info = item.select('.bd p')[0].text
rating = item.select('.rating_num')[0].text
print(title, info, rating)
```
首先,我们需要引入requests和BeautifulSoup库来进行网页请求和解析。接着,我们定义一个url和headers,用于向豆瓣电影Top250发送请求。使用requests.get()方法来获取网页内容,然后使用BeautifulSoup库来解析网页内容。
在解析完毕后,我们使用CSS选择器来选择网页中的电影信息,包括电影名称、电影信息和评分。最后,我们打印出电影信息。
请注意,如果需要爬取全部的Top250电影信息,需要进行分页爬取。在每页的url中,使用start参数来控制分页的起始位置,例如第一页的url为'https://movie.douban.com/top250?start=0&filter=',第二页的url为'https://movie.douban.com/top250?start=25&filter='。
阅读全文