Python爬虫：抓取网页图片并保存到本地的实现

版权申诉

5星 · 超过95%的资源 166 浏览量更新于2024-09-12 1 收藏 57KB PDF 举报

"这篇Python代码示例展示了如何抓取网页中的图片并将其保存到本地。" 在Python中，网络爬虫是一种常见的技术，用于从网页上获取数据，其中包括图片。以下是一个简单的Python脚本，它使用了几个核心库来完成这个任务： 1. **os模块**：提供与操作系统交互的功能，如创建目录、获取文件扩展名等。 2. **uuid模块**：生成全局唯一的标识符（UUID），用于创建唯一文件名。 3. **urllib2模块**：处理HTTP请求，包括打开URL并读取响应数据。 4. **cookielib模块**：处理HTTP Cookie，这在某些网站需要登录或有会话管理的情况下是必要的。首先，定义了几个辅助函数： - **get_file_extension(file)**：这个函数接收一个文件名，然后返回其扩展名。它使用os.path.splitext()方法来分离文件名和扩展名。 - **mkdir(path)**：创建一个指定的目录，如果不存在的话。它会确保路径的正确性，避免尾部的反斜杠，并使用os.makedirs()创建目录。 - **unique_str()**：生成一个36位的唯一字符串，基于uuid1()，这在为图片文件命名时很有用，可以避免文件重名问题。接着，有两个关键函数来处理实际的抓取和保存图片： - **get_file(url)**：这个函数负责从URL获取文件内容。它使用urllib2构建一个opener，处理HTTP请求和Cookie，然后打开URL并读取数据。如果出现异常，它会捕获并打印错误信息，然后返回None。 - **save_file(path, file_name, data)**：这个函数接收路径、文件名和文件内容，创建目录（如果需要）并写入数据到本地文件。它首先检查是否有数据，然后确保路径以斜杠结尾，最后打开文件进行写入操作。在实际使用这个脚本时，你需要提供一个URL指向含有图片的网页，然后调用get_file()函数获取图片内容，再用save_file()函数保存图片到本地。注意，这个脚本没有处理HTML解析，所以它假设URL直接指向一个图片。如果你要从一个HTML页面抓取所有图片，你可能需要使用像BeautifulSoup这样的库来解析HTML并找到`<img>`标签。在实际应用中，为了更高效和稳定地抓取网页，你可能还需要处理更多细节，比如设置超时、处理重定向、处理验证码和登录状态，以及使用代理等。此外，尊重网站的robots.txt规则和避免过于频繁的请求也是网络爬虫的基本礼仪。

python抓取网页中图片并保存到本地抓取网页中图片并保存到本地

在上篇文章给大家分享PHP源码批量抓取远程网页图片并保存到本地的实现方法，感兴趣的朋友可以点击了解详情。

#-*-coding:utf-8-*-

import os

import uuid

import urllib2

import cookielib

'''获取文件后缀名'''

def get_file_extension(file):

return os.path.splitext(file)[1] '''創建文件目录，并返回该目录'''

def mkdir(path):

# 去除左右两边的空格

path=path.strip()

# 去除尾部 \符号

path=path.rstrip("\")

if not os.path.exists(path):

os.makedirs(path)

return path

'''自动生成一个唯一的字符串，固定长度为36'''

def unique_str():

return str(uuid.uuid1())

'''

抓取网页文件内容，保存到内存

@url 欲抓取文件，path+filename

'''

def get_file(url):

try:

cj=cookielib.LWPCookieJar()

opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

urllib2.install_opener(opener)

req=urllib2.Request(url)

operate=opener.open(req)

data=operate.read()

return data

except BaseException, e:

print e

return None

'''

保存文件到本地

@path 本地路径

@file_name 文件名

@data 文件内容

'''

def save_file(path, file_name, data):

if data == None:

return

mkdir(path)

if(not path.endswith("/")):

path=path+"/"

file=open(path+file_name, "wb")

file.write(data)

file.flush()

file.close()

#获取文件后缀名

print get_file_extension("123.jpg");

#print mkdir("d:/ljq")

#自动生成一个唯一的字符串，固定长度为36

print unique_str()

url="http://qlogo1.store.qq.com/qzone/416501600/416501600/100?0";

save_file("d:/ljq/", "123.jpg", get_file(url))

通过Python抓取指定Url中的图片保存至本地

# *** encoding: utf-8 ***

__author__='jiangyt'

"""

fetch images from specific url

v1.0

"""

import urllib, httplib, urlparse

import re

import random

"""judge url exists or not"""

def httpExists(url):

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38520437

粉丝: 5
资源: 920

Python爬虫：抓取网页图片并保存到本地的实现

python 抓取一个网站所有图片并保存

python 抓取网页中所有图片

Python爬虫获取图片并下载保存至本地的实例

Python爬虫：抓取网页图片并保存到本地的教程

python爬取网页图片并保存到本地

Python爬虫抓取网页数据并保存到本地数据文件中

python抓取网站的图片并下载到本地的方法

Python使用爬虫抓取美女图片并保存到本地的方法【测试可用】

python保存网页图片到本地的方法

python如何把网页图片保存到本地

最新资源