python爬取网页图片并放到指定文件夹同时获取网页中的Cookie
时间: 2024-10-17 10:15:56 浏览: 27
python抓取网页图片并放到指定文件夹
在Python中,我们可以使用`requests`库来获取网页内容包括图片和`cookies`,然后使用`BeautifulSoup`处理HTML解析图片URL,并使用`os`和`urllib`模块下载图片到指定目录。对于保存`cookies`,可以直接从响应头中提取。
以下是一个简单的示例:
```python
import requests
from bs4 import BeautifulSoup
import os
from urllib.parse import urljoin
# 指定目标网址和保存路径
url = 'http://example.com'
save_dir = '/path/to/save/images'
# 如果目录不存在,创建它
if not os.path.exists(save_dir):
os.makedirs(save_dir)
# 发送请求并获取响应
response = requests.get(url)
cookies = response.cookies # 获取cookies
# 使用BeautifulSoup解析页面
soup = BeautifulSoup(response.text, 'html.parser')
# 查找所有的img标签,获取src属性
image_tags = soup.find_all('img')
for img in image_tags:
img_url = img['src']
# 将相对URL转换为绝对URL
if not img_url.startswith('http'):
img_url = urljoin(url, img_url)
# 下载图片并保存
file_path = os.path.join(save_dir, os.path.basename(img_url))
with open(file_path, 'wb') as f:
response_image = requests.get(img_url, cookies=cookies) # 传递cookies到下载请求
f.write(response_image.content)
print(f"Downloaded images to {save_dir}")
阅读全文