用Python爬虫某个网站并且保存所有图片到指定文件夹
时间: 2023-06-13 16:06:56 浏览: 239
可以使用Python中的requests和BeautifulSoup库来实现爬取网站的图片,并使用os库来创建指定的文件夹并保存图片。
以下是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
import os
url = "https://example.com" # 替换为目标网站的地址
save_folder = "images" # 指定保存图片的文件夹名称
# 创建保存图片的文件夹
if not os.path.exists(save_folder):
os.mkdir(save_folder)
# 获取网站内容
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
# 找到所有的图片标签
images = soup.find_all("img")
# 遍历所有图片标签,保存图片
for img in images:
img_url = img.get("src")
if img_url.startswith("http"): # 如果图片链接是一个绝对路径
img_response = requests.get(img_url)
else: # 如果图片链接是一个相对路径,需要拼接完整的链接
img_response = requests.get(url + img_url)
img_name = img_url.split("/")[-1] # 获取图片名称
img_path = os.path.join(save_folder, img_name) # 拼接保存路径
with open(img_path, "wb") as f:
f.write(img_response.content)
print(f"已保存图片:{img_url}")
```
需要注意的是,这个示例代码只会保存网页中直接引用的图片,如果网页中有通过CSS样式或JavaScript动态加载的图片,则不会被保存。对于这种情况,需要使用更加复杂的爬虫技术才能实现。
阅读全文