编写简单的爬虫程序,使用request、lxml,爬取http://www.netbian.com/页面上10幅图像,并保存到本地文件夹中
时间: 2024-12-04 15:26:35 浏览: 7
要编写一个简单的Python爬虫来抓取网页上的图片并保存到本地,我们可以利用`requests`库来发送HTTP请求,以及`lxml`库解析HTML。这里我们将展示如何使用`lxml`解析HTML找到图片URL,然后使用`requests`下载图片。
**步骤1**: 导入所需库
```python
import requests
from lxml import html
import os
```
**步骤2**: 定义要抓取的URL和目标图片数量
```python
url = "http://www.netbian.com/"
num_images_to_download = 10
```
**步骤3**: 发送GET请求获取网页内容
```python
response = requests.get(url)
```
**步骤4**: 解析HTML以提取图片URL
```python
tree = html.fromstring(response.content)
image_tags = tree.xpath('//img[@src]')
images_urls = [img.attrib['src'] for img in image_tags[:num_images_to_download]]
```
**步骤5**: 检查目标文件夹是否存在,如果不存在则创建
```python
if not os.path.exists('downloaded_images'):
os.makedirs('downloaded_images')
```
**步骤6**: 下载并保存图片
```python
for i, image_url in enumerate(images_urls):
response_image = requests.get(image_url, stream=True)
with open(f'downloaded_images/image_{i+1}.jpg', 'wb') as f:
for chunk in response_image.iter_content(chunk_size=1024):
if chunk:
f.write(chunk)
```
这将从指定URL下载前10张图片,并保存为`.jpg`格式。请注意,实际操作中可能需要处理更多异常情况,比如网络错误、图片URL无效等。
阅读全文