爬取豆瓣top250所有信息
时间: 2023-11-08 22:33:13 浏览: 74
要爬取豆瓣电影Top250的所有信息,可以使用Python的requests和BeautifulSoup库来完成。以下是一个简单的爬取示例:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
movie_list = []
for i in range(0, 250, 25):
params = {
'start': str(i),
'filter': ''
}
response = requests.get(url, headers=headers, params=params)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='item')
for item in items:
title = item.find('span', class_='title').text.strip()
info = item.find('div', class_='bd').p.text.strip()
rating = item.find('span', class_='rating_num').text.strip()
movie_list.append({'title': title, 'info': info, 'rating': rating})
print(movie_list)
```
此代码首先定义了要爬取的网址和请求头部,然后使用循环和参数来爬取每一页的电影,使用BeautifulSoup解析HTML,从中获取电影的标题、简介和评分,并将其添加到一个字典中。最后,输出电影列表。请注意,此代码仅作为示例,在实际使用中需要注意网站的规则和使用条款。
阅读全文
相关推荐















