python爬虫https://www.imdb.com/chart/top的电影
时间: 2023-08-22 20:11:09 浏览: 153
python爬虫练习:爬图片
好的,您可以使用 Python 的 requests 和 BeautifulSoup 库来实现这个爬虫。以下是这个爬虫的基本步骤:
1. 发送 HTTP 请求获取网页内容
2. 使用 BeautifulSoup 解析 HTML 页面
3. 提取电影信息并存储到本地文件或数据库中
下面是一个简单的示例代码,可以帮助您开始这个项目:
```
import requests
from bs4 import BeautifulSoup
url = 'https://www.imdb.com/chart/top'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.select('td.titleColumn')
for movie in movies:
title = movie.select('a')[0].text
year = movie.select('span.secondaryInfo')[0].text
rating = movie.select('td.ratingColumn.imdbRating')[0].text.strip()
print(title, year, rating)
```
这段代码将获取 https://www.imdb.com/chart/top 页面中的电影排名、电影名称、上映年份和评分,并将它们打印到控制台中。您可以根据您的实际需求将这些信息保存到本地文件或数据库中。
阅读全文