编写一段Python网络爬虫根据输入内容爬取图片保存在相应的文件下
时间: 2024-09-24 10:27:14 浏览: 48
在Python中编写一个简单的网络爬虫来抓取图片并保存到特定文件夹中,可以使用诸如`requests`库来获取网页内容,然后利用`BeautifulSoup`解析HTML结构定位图片链接,最后用`urllib`下载图片并存储。这里是一个基础的示例:
```python
import os
import requests
from bs4 import BeautifulSoup
def download_image(url, save_path):
# 下载图片
response = requests.get(url)
if response.status_code == 200:
with open(save_path, 'wb') as f:
f.write(response.content)
else:
print(f"无法下载图片 {url}, 状态码: {response.status_code}")
def scrape_images(input_text, save_folder):
# 解析输入内容找寻图片URL
soup = BeautifulSoup(input_text, 'lxml')
img_tags = soup.find_all('img') # 这里假设输入文本是HTML,替换为实际解析方式
for img in img_tags:
img_url = img['src']
if img_url.startswith('http'): # 检查是否为外部链接
# 创建目标路径,如果不存在则创建
file_name = os.path.join(save_folder, os.path.basename(img_url))
download_image(img_url, file_name)
# 使用示例
input_content = "这里是一段包含图片的HTML字符串" # 替换为你需要爬取的页面源代码
save_folder = "images" # 存储图片的文件夹
scrape_images(input_content, save_folder)
```
这个示例中,你需要将`input_content`替换为实际的网页HTML字符串,或者提供一个能返回HTML内容的函数。同时,你也可以根据实际情况调整图片标签的选择和URL的处理。
阅读全文