Python爬虫：抓取网页图片并保存到本地的教程

版权申诉

146 浏览量更新于2024-09-15 收藏 51KB PDF 举报

"本文主要介绍如何使用Python抓取网页中的图片并将其保存到本地计算机上。我们将探讨Python的网络请求库urllib2和文件操作的相关方法，以及如何处理目录创建和文件命名。" 在Python中，抓取网页图片通常涉及以下几个步骤： 1. **导入必要的库**： - `os` 库用于处理文件和目录操作，如获取文件扩展名、创建目录等。 - `uuid` 库用于生成唯一标识符，确保生成的文件名不会重复。 - `urllib2` 库负责进行HTTP请求，包括打开URL、读取响应内容。 2. **获取文件扩展名**：使用 `os.path.splitext()` 函数可以获取文件名和其扩展名。例如，对于 "image.jpg"，返回的结果是 ('image', '.jpg')。 3. **创建文件目录**：通过 `mkdir()` 函数，我们可以创建一个新的目录，如果目录不存在的话。它首先会清理路径中的多余空格和尾部的反斜杠，然后使用 `os.makedirs()` 创建目录。 4. **生成唯一文件名**：使用 `uuid.uuid1()` 可以生成一个36字符的唯一字符串，用于避免文件重名。 5. **抓取网页文件内容**： `get_file()` 函数负责从给定的URL抓取文件内容。这里使用了 `urllib2` 的 `build_opener()` 和 `HTTPCookieProcessor()` 来处理HTTP请求，这允许处理网站的cookies，如果需要的话。函数尝试打开URL，读取响应内容，然后返回。 6. **保存文件到本地**： `save_file()` 函数接收本地路径、文件名和文件内容作为参数。首先检查数据是否为空，然后创建目标目录（如果不存在），最后将文件内容以二进制模式写入文件。在实际应用中，我们还需要解析HTML来找到图片的URL。这通常可以通过使用 `BeautifulSoup` 或 `lxml` 这样的库来实现。以下是一个简单的示例： ```python from bs4 import BeautifulSoup def find_image_urls(html): soup = BeautifulSoup(html, 'html.parser') img_tags = soup.find_all('img') urls = [img['src'] for img in img_tags if 'src' in img.attrs] return urls ``` 这段代码将解析HTML文档，找到所有的`<img>`标签，并提取出它们的`src`属性，即图片URL。整合以上步骤，完整的图片抓取过程可能如下： 1. 解析HTML并找到图片URL。 2. 对每个URL调用 `get_file()` 函数获取图片内容。 3. 用 `save_file()` 函数将图片内容保存到本地。请注意，为了遵守网站的robots.txt文件和避免对服务器造成过大压力，应适当设置请求间隔，并尊重网站的抓取政策。同时，某些网站可能会使用反爬虫技术，如验证码或IP封锁，因此在实际抓取时可能需要额外的策略和工具来应对。

python抓取网页中图片并保存到本地抓取网页中图片并保存到本地

本篇文章给大家介绍python抓取网页中图片并保存到本地，对python抓取网页图片相关知识感兴趣的朋友一起

学习吧

在上篇文章给大家分享PHP源码批量抓取远程网页图片并保存到本地的实现方法，感兴趣的朋友可以点击了解详情。

#-*-coding:utf-8-*-

import os

import uuid

import urllib2

import cookielib

'''获取文件后缀名'''

def get_file_extension(file):

return os.path.splitext(file)[1]

def mkdir(path):

# 去除左右两边的空格

path=path.strip()

# 去除尾部 \符号

path=path.rstrip("\")

if not os.path.exists(path):

os.makedirs(path)

return path

'''自动生成一个唯一的字符串，固定长度为36'''

def unique_str():

return str(uuid.uuid1())

'''

抓取网页文件内容，保存到内存

@url 欲抓取文件，path+filename

'''

def get_file(url):

try:

cj=cookielib.LWPCookieJar()

opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

urllib2.install_opener(opener)

req=urllib2.Request(url)

operate=opener.open(req)

data=operate.read()

return data

except BaseException, e:

print e

return None

'''

保存文件到本地

@path 本地路径

@file_name 文件名

@data 文件内容

'''

def save_file(path, file_name, data):

if data == None:

return

mkdir(path)

if(not path.endswith("/")):

path=path+"/"

file=open(path+file_name, "wb")

file.write(data)

file.flush()

file.close()

#获取文件后缀名

print get_file_extension("123.jpg");

#print mkdir("d:/ljq")

#自动生成一个唯一的字符串，固定长度为36

print unique_str()

url="http://qlogo1.store.qq.com/qzone/416501600/416501600/100?0";

save_file("d:/ljq/", "123.jpg", get_file(url))

通过Python抓取指定Url中的图片保存至本地

# *** encoding: utf-8 ***

__author__='jiangyt'

"""

fetch images from specific url

v1.0

"""

import urllib, httplib, urlparse

import re

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38696176

粉丝: 6
资源: 919

Python爬虫：抓取网页图片并保存到本地的教程

Python爬虫：抓取网页图片并保存到本地的实现

Python网络爬虫算法：高效抓取网页图片

Python爬虫抓取网页图片实战指南

python爬取网页图片并保存到本地

Python爬虫抓取网页数据并保存到本地数据文件中

python抓取网站的图片并下载到本地的方法

Python使用爬虫抓取美女图片并保存到本地的方法【测试可用】

python保存网页图片到本地的方法

Python爬虫获取图片并下载保存至本地的实例

python如何把网页图片保存到本地

最新资源