用python写一段网页爬虫代码 爬取电影 带注释
时间: 2024-03-13 21:35:04 浏览: 121
python大作业-基于python实现微信公众号文章爬虫源码+详细代码注释+项目说明.zip
5星 · 资源好评率100%
以下是一个简单的Python爬虫代码,可以爬取电影信息:
``` python
import requests
from bs4 import BeautifulSoup
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 设置目标网站URL
url = "https://movie.douban.com/top250"
# 发送请求并获取响应
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有电影条目的div
movie_list_div = soup.find('ol', class_='grid_view')
# 遍历每个电影条目,提取信息
for movie_li in movie_list_div.find_all('li'):
# 获取电影排名
rank = movie_li.find('em').text
# 获取电影名称和电影详情页URL
movie_name = movie_li.find('span', class_='title').text
movie_url = movie_li.find('a')['href']
# 获取电影评分和评价人数
rating = movie_li.find('span', class_='rating_num').text
rating_num = movie_li.find('div', class_='star').find_all('span')[3].text
# 输出电影信息
print(f"排名:{rank}")
print(f"电影名:{movie_name}")
print(f"电影详情页URL:{movie_url}")
print(f"评分:{rating}")
print(f"评价人数:{rating_num}")
print("==============================")
```
代码解释:
1. 导入必要的库 `requests` 和 `BeautifulSoup`。
2. 设置请求头,模拟浏览器发送请求。
3. 设置目标网站的URL。
4. 发送请求并获取响应,使用 `BeautifulSoup` 解析响应内容。
5. 找到电影条目的 `div` 元素。
6. 遍历每个电影条目,提取需要的电影信息。
7. 输出电影信息。
这段代码可以爬取豆瓣电影Top250的电影信息。你可以根据自己的需求修改代码来爬取其他网站的电影信息。
阅读全文