python爬虫下载网页图片
时间: 2024-08-24 13:01:21 浏览: 121
Python爬虫下载网页图片通常使用requests库来获取网页内容,然后使用BeautifulSoup库解析HTML,找到图片链接并下载。以下是基本步骤:
1. 安装必要的库:通常需要安装requests和beautifulsoup4。可以使用pip命令安装:
```
pip install requests beautifulsoup4
```
2. 获取网页内容:使用requests库发送HTTP请求,获取网页的响应内容。
3. 解析网页:使用BeautifulSoup库解析获取到的网页内容,定位到图片标签(通常是<img>标签)并提取出图片的URL。
4. 下载图片:遍历所有提取到的图片URL,使用requests库再次发送请求,获取图片内容,并将其保存到本地文件。
这里是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
import os
def download_images(url, folder="images"):
if not os.path.exists(folder):
os.makedirs(folder)
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for img in soup.find_all('img'):
img_url = img.get('src')
if not img_url.startswith('http'):
img_url = url + img_url
try:
img_data = requests.get(img_url).content
img_name = os.path.join(folder, img_url.split('/')[-1])
with open(img_name, 'wb') as f:
f.write(img_data)
print(f"图片已下载:{img_name}")
except Exception as e:
print(f"下载图片出错:{e}")
# 使用示例
download_images('http://example.com')
```
这段代码首先创建了一个图片保存的文件夹,然后获取指定URL的网页内容并解析,提取图片链接,并下载保存到本地文件夹中。
阅读全文