利用python的requests库和beautidulsoup4库爬取豆瓣top250电影的代码
时间: 2024-09-20 15:07:19 浏览: 148
当你想要利用Python的`requests`库和`BeautifulSoup4`库来爬取豆瓣Top250电影的信息时,首先需要安装这两个库,可以使用pip进行安装:
```bash
pip install requests beautifulsoup4
```
下面是一个简单的示例,展示如何编写一个基本的爬虫脚本来获取豆瓣Top250电影列表页的数据:
```python
import requests
from bs4 import BeautifulSoup
def get_douban_top250():
# 设置URL
url = "https://movie.douban.com/top250"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 找到电影标题和链接的元素
movie_list = soup.find('ol', class_='grid_view').find_all('li')
# 创建空列表存储数据
movies_data = []
for movie in movie_list:
title_element = movie.find('span', class_='title')
link_element = movie.find('a', class_='item')
title = title_element.text.strip()
link = 'https://movie.douban.com' + link_element['href']
movies_data.append({
'title': title,
'link': link
})
return movies_data
else:
print(f"请求失败,状态码:{response.status_code}")
return None
# 获取并打印数据
movies = get_douban_top250()
if movies:
for movie in movies:
print(f"电影名: {movie['title']}\n链接: {movie['link']}\n")
else:
print("无法获取数据")
#
阅读全文