爬取泰迪智能网站里的所有图片并保存到本地磁盘,使用正则表达式解析匹配图片。
时间: 2024-09-09 22:03:14 浏览: 41
爬取网站上的图片并保存到本地磁盘,通常需要以下几个步骤:
1. 分析目标网站的结构,确定图片存储的位置,例如图片可能存储在`<img>`标签的`src`属性中。
2. 编写网络请求代码,获取目标网页的HTML内容。
3. 使用正则表达式解析HTML内容,匹配并提取出图片的URL。
4. 使用HTTP客户端工具,根据提取出的图片URL下载图片。
5. 将下载的图片保存到本地磁盘的指定位置。
以下是一个简化的代码示例,使用Python语言进行演示:
```python
import requests
import re
from urllib.parse import urljoin
import os
# 目标网站的URL
url = 'http://teddyai.com'
# 发送HTTP请求,获取网站内容
response = requests.get(url)
response.encoding = response.apparent_encoding
# 使用正则表达式匹配图片的URL
images = re.findall(r'<img.*?src="(.*?)"', response.text)
# 创建本地存储目录
save_dir = './teddyai_images'
if not os.path.exists(save_dir):
os.makedirs(save_dir)
# 遍历所有匹配到的图片URL
for img_url in images:
# 构造完整的图片URL
img_url = urljoin(url, img_url)
# 获取图片内容
img_data = requests.get(img_url).content
# 获取图片文件名
filename = os.path.join(save_dir, img_url.split('/')[-1])
# 保存图片到本地
with open(filename, 'wb') as f:
f.write(img_data)
print("图片下载完成。")
```
阅读全文