使用正则表达式爬虫爬取所提供的网页https://www.quanjing.com/tupian/ma.html的图片并保存下来
时间: 2023-12-31 14:04:04 浏览: 120
好的,我可以帮你解决这个问题。你可以使用Python的requests和re库来实现。
首先,你需要导入所需的库:
```python
import requests
import re
```
然后,发送HTTP请求并获取网页的内容:
```python
url = "https://www.quanjing.com/tupian/ma.html"
response = requests.get(url)
html = response.text
```
接下来,使用正则表达式匹配图片链接:
```python
pattern = r'<img.+?src="(.+?\.jpg)".*?>'
image_urls = re.findall(pattern, html)
```
现在,你可以遍历这些图片链接,并将它们保存到本地:
```python
for i, image_url in enumerate(image_urls):
response = requests.get(image_url)
with open(f"image_{i+1}.jpg", "wb") as f:
f.write(response.content)
print(f"Image {i+1} saved.")
```
这样,你就可以成功爬取并保存网页中的图片了。请注意,这只是一个简单的示例,实际应用中可能需要处理异常情况和优化代码。
相关问题
在img_md5='' imgurl='https://pic.quanjing.com/li/fw/QJ6121460050.jpg@!350h' onclick=中想要提取https://pic.quanjing.com/li/fw/QJ6121460050.jpg@!350h的正则表达式怎么写
您可以使用以下正则表达式来提取其中的图片链接:
```
imgurl='(https?://[^']+)' onclick=
```
这个正则表达式会匹配以 `imgurl='` 开头,`' onclick=` 结束的字符串,并提取其中的图片链接部分。在这种情况下,正则表达式会提取 `https://pic.quanjing.com/li/fw/QJ6121460050.jpg@!350h` 作为结果。
在<span class='img_same' onclick='similarsearch("qj6121460050")'><a class='img_same' src='/similar/qj6121460050.html'></a></span><span class='img_fav' i='qj6121460050' c='pm0280' originalid='pm0280-8718py' img_md5='' imgurl='https://pic.quanjing.com/li/fw/QJ6121460050.jpg@!350h' onclick='GoFav("fav_qj6121460050");' id="fav_qj6121460050" title='收藏'></span>中想要提取https://pic.quanjing.com/li/fw/QJ6121460050.jpg@!350h的正则表达式怎么写
您可以使用以下正则表达式来提取其中的图片链接:
```python
imgurl='(https?://[^']+)' onclick='GoFav\("fav_qj6121460050"\);'
```
这个正则表达式会匹配以 `imgurl='` 开头,`' onclick='GoFav("fav_qj6121460050");'` 结束的字符串,并提取其中的图片链接部分。在这种情况下,正则表达式会提取 `https://pic.quanjing.com/li/fw/QJ6121460050.jpg@!350h` 作为结果。请注意,为了匹配到完整的 `onclick` 属性值,需要使用 `\(` 和 `\)` 来转义括号。
阅读全文