Python使用使用xpath实现图片爬取实现图片爬取
主要介绍了Python使用xpath实现图片爬取,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定
的参考学习价值,需要的朋友可以参考下
高性能异步爬虫高性能异步爬虫
目的:在爬虫中使用异步实现高性能的数据爬取操作
异步爬虫的方式:异步爬虫的方式:
- 多线程、多进程(不建议):
好处:可以为相关阻塞的操作单独开启多线程或进程,阻塞操作就可以异步执行;
弊端:无法无限制的开启多线程或多进程。
- 线程池、进程池(适当的使用):
好处:我们可以降低系统对进程或线程创建和销毁的一个频率,从而很好的降低系统的开销;
弊端:池中线程或进程的数据是有上限的。
代码如下
# _*_ coding:utf-8 _*_
"""
@FileName :6.4k图片解析爬取(异步高性能测试).py
@CreateTime :2020/8/14 0014 10:01
@Author : Lurker Zhang
@E-mail : 289735192@qq.com
@Desc. :
"""
import requests
from lxml import etree
from setting.config import *
import json
import os
import time
from multiprocessing.dummy import Pool
def main():
# 图片采集源地址
# source_url = 'http://pic.netbian.com/4kmeinv/'
# temp_url = 'http://pic.netbian.com/4kmeinv/index_{}.html'
# source_url = 'http://pic.netbian.com/4kdongman/'
# temp_url = 'http://pic.netbian.com/4kdongman/index_{}.html'
source_url = 'http://pic.netbian.com/4kmingxing/'
temp_url = 'http://pic.netbian.com/4kmingxing/index_{}.html'
# 本此采集前多少页,大于1的整数
page_sum = 136
all_pic_list_url = []
if page_sum == 1:
pic_list_url = source_url
print('开始下载:' + pic_list_url)
all_pic_list_url.append(pic_list_url)
else:
# 先采集第一页
pic_list_url = source_url
# 调用采集单页图片链接的函数
all_pic_list_url.append(pic_list_url)
# 再采集第二页开始后面的页数
for page_num in range(2, page_sum + 1):
pic_list_url = temp_url.format(page_num)
all_pic_list_url.append(pic_list_url)
# 单页图片多线程解析
pool1 = Pool(10)
pool1.map(down_pic, all_pic_list_url)
print('采集完成,本地成功下载{0}张图片,失败{1}张图片。'.format(total_success, total_fail))
# 存储已下载文件名列表:
with open("../depository/mingxing/pic_name_list.json", 'w', encoding='utf-8') as fp:
json.dump(pic_name_list, fp)