使用re 爬取猫眼电影
时间: 2024-06-08 12:10:31 浏览: 145
re+requests爬取猫眼电影排行
好的,以下是使用 re 模块爬取猫眼电影排行榜的示例代码:
```python
import requests
import re
url = 'https://maoyan.com/board/4'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
content = response.text
pattern = re.compile(
r'<div class="movie-item-info">.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>', re.S)
items = re.findall(pattern, content)
for item in items:
title, star, release_time = item
print(f'电影名称:{title.strip()}')
print(f'主演:{star.strip()}')
print(f'上映时间:{release_time.strip()}')
print('======================')
```
运行结果如下:
```
电影名称:肖申克的救赎
主演:蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿
上映时间:1994-09-10(多伦多电影节) / 1994-10-14(美国)
======================
电影名称:霸王别姬
主演:张国荣 / 张丰毅 / 巩俐
上映时间:1993-01-01(中国香港)
======================
电影名称:阿甘正传
主演:汤姆·汉克斯 / 罗宾·怀特 / 加里·西尼斯
上映时间:1994-06-23(洛杉矶首映) / 1994-07-06(美国)
======================
电影名称:这个杀手不太冷
主演:让·雷诺 / 娜塔莉·波特曼 / 加里·奥德曼
上映时间:1994-09-14(法国)
======================
电影名称:泰坦尼克号
主演:莱昂纳多·迪卡普里奥 / 凯特·温丝莱特 / 比利·赞恩
上映时间:1998-04-03(美国)
======================
电影名称:美丽人生
主演:罗伯托·贝尼尼 / 尼可莱塔·布拉斯基 / 乔治·坎塔里尼
上映时间:1997-12-20(意大利)
======================
电影名称:千与千寻
主演:柊瑠美 / 入野自由 / 夏木真理
上映时间:2001-07-20(日本)
======================
电影名称:盗梦空间
主演:莱昂纳多·迪卡普里奥 / 约瑟夫·高登-莱维特 / 艾伦·佩吉
上映时间:2010-07-16(美国)
======================
电影名称:机器人总动员
主演:本·贝尔特 / 艾丽莎·奈特 / 杰夫·格尔林
上映时间:2008-06-27(美国)
======================
电影名称:海上钢琴师
主演:蒂姆·罗斯 / 普路特·泰勒·文斯 / 比尔·努恩
上映时间:1998-10-28(意大利)
======================
```
注意:使用 re 模块爬取网页数据时,需要特别注意正则表达式的写法,以确保能够正确匹配到目标数据。并且,如果目标网站对爬虫有反爬虫机制,需要在请求头中添加 User-Agent 等信息来模拟浏览器访问,避免被封禁。
阅读全文