Python使用xpath实现图片爬取 - CSDN文库

37 浏览量更新于2023-05-11 收藏 50KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源推荐

Python使用使用xpath实现图片爬取实现图片爬取

主要介绍了Python使用xpath实现图片爬取,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定

的参考学习价值,需要的朋友可以参考下

高性能异步爬虫高性能异步爬虫

目的：在爬虫中使用异步实现高性能的数据爬取操作

异步爬虫的方式：异步爬虫的方式：

- 多线程、多进程（不建议）：

好处：可以为相关阻塞的操作单独开启多线程或进程，阻塞操作就可以异步执行;

弊端：无法无限制的开启多线程或多进程。

- 线程池、进程池（适当的使用）：

好处：我们可以降低系统对进程或线程创建和销毁的一个频率，从而很好的降低系统的开销；

弊端：池中线程或进程的数据是有上限的。

代码如下

# _*_ coding:utf-8 _*_

"""

@FileName :6.4k图片解析爬取（异步高性能测试）.py

@CreateTime :2020/8/14 0014 10:01

@Author : Lurker Zhang

@E-mail : 289735192@qq.com

@Desc. :

"""

import requests

from lxml import etree

from setting.config import *

import json

import os

import time

from multiprocessing.dummy import Pool

def main():

# 图片采集源地址

# source_url = 'http://pic.netbian.com/4kmeinv/'

# temp_url = 'http://pic.netbian.com/4kmeinv/index_{}.html'

# source_url = 'http://pic.netbian.com/4kdongman/'

# temp_url = 'http://pic.netbian.com/4kdongman/index_{}.html'

source_url = 'http://pic.netbian.com/4kmingxing/'

temp_url = 'http://pic.netbian.com/4kmingxing/index_{}.html'

# 本此采集前多少页,大于1的整数

page_sum = 136

all_pic_list_url = []

if page_sum == 1:

pic_list_url = source_url

print('开始下载:' + pic_list_url)

all_pic_list_url.append(pic_list_url)

else:

# 先采集第一页

pic_list_url = source_url

# 调用采集单页图片链接的函数

all_pic_list_url.append(pic_list_url)

# 再采集第二页开始后面的页数

for page_num in range(2, page_sum + 1):

pic_list_url = temp_url.format(page_num)

all_pic_list_url.append(pic_list_url)

# 单页图片多线程解析

pool1 = Pool(10)

pool1.map(down_pic, all_pic_list_url)

print('采集完成，本地成功下载{0}张图片,失败{1}张图片。'.format(total_success, total_fail))

# 存储已下载文件名列表：

with open("../depository/mingxing/pic_name_list.json", 'w', encoding='utf-8') as fp:

json.dump(pic_name_list, fp)

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

weixin_38715008

粉丝: 5
资源: 1017

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈