python正则表达式爬取图片
时间: 2023-10-05 18:10:27 浏览: 84
您可以使用Python的正则表达式模块re来爬取图片。首先,您需要先通过网络请求获取网页的HTML代码,然后使用正则表达式来匹配图片的URL。
下面是一个简单的示例代码,将爬取指定网页中的所有图片链接:
```python
import re
import requests
def get_image_urls(url):
# 发起网络请求获取网页内容
response = requests.get(url)
html = response.text
# 使用正则表达式匹配图片链接
pattern = r'<img.*?src="(.*?)".*?>'
image_urls = re.findall(pattern, html)
return image_urls
# 指定要爬取的网页URL
url = 'http://example.com'
# 获取图片链接列表
image_urls = get_image_urls(url)
# 打印图片链接
for image_url in image_urls:
print(image_url)
```
在上述代码中,我们使用了`requests`库来发起网络请求并获取网页内容。然后,使用正则表达式`<img.*?src="(.*?)".*?>`来匹配所有`<img>`标签中的`src`属性的值,即图片链接。最后,将获取到的图片链接打印出来。
需要注意的是,正则表达式只能提取简单的图片链接,如果网页中图片链接的格式复杂或者有其他特殊情况,可能需要根据实际情况调整正则表达式。此外,爬取网页内容涉及到一些法律和道德问题,请确保您的行为符合相关规定和道德准则。