python 网页图片爬虫代码
时间: 2024-09-11 17:11:18 浏览: 106
Python网页图片爬虫是一种利用Python语言编写的程序,用于从网页中提取并下载图片。通常情况下,可以通过以下步骤实现:
1. 导入必要的库:如`requests`用于发送网络请求,`BeautifulSoup`或`lxml`用于解析HTML文档。
2. 发送HTTP请求:使用`requests`库向目标网页发送GET请求,获取网页内容。
3. 解析网页内容:利用`BeautifulSoup`或类似库解析获取到的HTML内容。
4. 定位图片链接:根据HTML结构,找到图片标签,并获取图片的URL地址。
5. 下载图片:根据解析得到的图片URL,再次发送HTTP请求下载图片。
6. 保存图片:将下载的图片内容保存到本地文件系统。
下面是一个简单的示例代码,展示了如何使用Python进行网页图片的爬取:
```python
import requests
from bs4 import BeautifulSoup
import os
# 目标网页URL
url = 'http://example.com'
# 发送HTTP GET请求
response = requests.get(url)
# 确保请求成功
response.raise_for_status()
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 假设图片都在<img>标签的'src'属性中
img_tags = soup.find_all('img')
# 创建保存图片的目录
if not os.path.exists('images'):
os.makedirs('images')
# 遍历所有图片标签
for img in img_tags:
# 获取图片的URL
img_url = img.get('src')
# 只处理绝对URL
if not img_url.startswith('http'):
continue
# 发送请求下载图片
img_response = requests.get(img_url)
# 确保请求成功
img_response.raise_for_status()
# 获取图片名
img_name = img_url.split('/')[-1]
# 保存图片
with open(f'images/{img_name}', 'wb') as file:
file.write(img_response.content)
```
阅读全文