豆瓣电影top250数据爬虫的代码
时间: 2024-09-18 18:05:56 浏览: 56
豆瓣电影Top250数据爬虫的代码通常涉及使用Python的网络请求库,如requests和BeautifulSoup或者更现代的Scrapy框架,以及JSON处理。以下是一个简单的使用requests和BeautifulSoup的示例:
```python
import requests
from bs4 import BeautifulSoup
def get_top250_movies():
base_url = "https://movie.douban.com/top250"
# 发送GET请求获取HTML页面内容
response = requests.get(base_url)
response.raise_for_status() # 检查请求是否成功
# 解析HTML
soup = BeautifulSoup(response.text, 'lxml')
# 找到包含电影信息的部分,这通常是`ol`元素
movie_list = soup.find('ol', class_='grid_view')
movies = []
for item in movie_list.find_all('li'):
title = item.h3.a.text.strip()
rating = float(item.strong.text)
link = item.h3.a['href']
movies.append({
'title': title,
'rating': rating,
'link': base_url + link
})
return movies
# 爬取并打印结果
top_movies = get_top250_movies()
for movie in top_movies[:10]:
print(f"{movie['title']}: {movie['rating']} 分")
阅读全文