基于jyputer使用requests库和正则表达式爬取网页信息
时间: 2024-01-26 15:02:42 浏览: 86
使用正则表达式实现网页爬虫的思路详解
好的,下面是一个基于 Jupyter Notebook 使用 requests 库和正则表达式爬取网页信息的示例:
```python
import re
import requests
from IPython.core.display import HTML
from IPython.display import display
url = 'https://www.example.com'
response = requests.get(url)
if response.status_code == 200:
# 使用正则表达式查找页面所有图片链接
pattern = re.compile(r'<img.*?src="(.*?)".*?>', re.S)
imgs = re.findall(pattern, response.text)
# 显示页面所有图片
for img in imgs:
display(HTML('<img src="{}"/>'.format(img)))
else:
print('请求页面失败,状态码:', response.status_code)
```
以上代码首先使用 requests 库发送请求并获取响应,并使用正则表达式查找页面所有图片链接。然后,使用 IPython 的 `display` 函数和 HTML 标签来在 Jupyter Notebook 中显示页面所有图片。
需要注意的是,这里使用了 IPython 的 `display` 函数和 HTML 标签来显示图片,这样可以在 Jupyter Notebook 中直接显示图片。如果你想要保存这些图片到本地,可以使用 urllib 库或者其他方式来实现。
阅读全文