帮用python代码爬取豆瓣电影网热榜前十
时间: 2023-09-25 07:12:35 浏览: 89
好的,我可以帮您实现这个功能。首先,我们需要用到 requests 和 BeautifulSoup 库来发送 HTTP 请求并解析 HTML 页面。请确保您已经安装了这两个库。
以下是实现代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/chart'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', {'class': 'pl2'})
for movie in movies[:10]:
title = movie.a.text.strip()
link = movie.a['href'].strip()
rating = movie.parent.find('span', {'class': 'rating_nums'}).text.strip()
print(title, link, rating)
```
这段代码会从豆瓣电影网的热榜中获取前十部电影的标题、链接和评分,并打印输出到控制台上。
注意,为了避免被反爬虫机制拦截,我们在请求头中添加了 User-Agent 信息。同时,我们也使用了 BeautifulSoup 库来解析 HTML 页面,方便我们从页面中提取数据。
希望这个代码能够帮到您!
阅读全文