提升ahttp异步爬虫的实用改造与优化

72 浏览量更新于2024-08-29 收藏 89KB PDF 举报

本文将深入探讨Python第三方异步爬虫库ahttp的使用和作者对其的一些定制修改。ahttp库最初被推荐给初学者，因其简洁易用。然而，作者在使用过程中发现该库没有近期更新，可能存在一些问题，可能是由于作者自身的技能水平或库的局限性。作者针对自身的需求和使用习惯对ahttp库进行了以下改进： 1. 增加爬虫返回结果的HTML属性：通过`@property`装饰器，添加了一个`html`属性，以便直接获取到爬取的网页HTML内容。原库可能在处理GB18030编码的网页时出现乱码，作者使用`content`代替`text`，避免了额外的转码步骤，提高了代码的兼容性和稳定性。 2. 完善回调函数`callback`：作者修复了回调函数的功能，确保它在爬虫执行过程中能正确触发并执行相应的操作。 3. 增加max_try功能：作者增强了爬虫的重试机制，通过设置最大尝试次数，并在达到最大次数时打印相关信息，提高了爬虫的健壮性。 4. 取消排序选项：删除了不切实际的排序选项，但引入了任务编号（index）来跟踪爬取顺序，方便后续数据处理时按序操作。 5. 随机选择User-Agent：集成fak_useragent库，允许爬虫在请求时随机更换User-Agent，增强伪装能力，提高爬取的隐蔽性。 6. 日志管理：添加了log标识，用户可以根据需要选择是否打印爬虫遇到的错误信息，便于问题排查和调试。 7. 函数封装：作者重构了部分API，如`ahttpGet`和`ahttpGetAll`，以简化调用过程，提升用户体验。经过这些修改，作者的自定义版本更加符合实际需求，适合在处理异步爬虫任务时使用。然而，由于ahttp库的更新问题，对于那些依赖最新功能或性能优化的用户，可能需要考虑其他更活跃的库。在使用时，新手用户应确保理解并适应作者的改动，同时注意处理可能出现的异常情况。

对对PYTHON三方异步爬虫库三方异步爬虫库ahttp的探讨的探讨

一、一、ahttp库介绍库介绍

近期在学习异步爬虫，在论坛发现这个帖子：

https://blog.csdn.net/getcomputerstyle/article/details/103014896

看了之后发现很适合新手使用，于是按照尝试，发现ahttp库近期没有更新，有一些问题存在（也有可能是我不会用，本人菜

鸟！！）

二、自用二、自用ahttp库的修改库的修改

自己对ahttp库做了一些修改，主要是基于自己的使用习惯和需求，代码在下面，主要做了一下修改：

1、增加了爬虫返回结果、增加了爬虫返回结果html

@property

def html(self):

# @html.setter #def html用于设置

# @重写，原库GB18030编码的网页可能导致乱码，这里使用content，而不是text，避免二次转码

2、完善了回调函数、完善了回调函数callback，原来的没有发挥作用，原来的没有发挥作用

3、完善了、完善了max_try，这里原来也没有发挥作用。增加了按照，这里原来也没有发挥作用。增加了按照max_try次数循环，并可以打印相关信息，次数循环，并可以打印相关信息，

4、取消返回结果是否排序选项，各种情况下结果都不排序，但在返回结果中增加了、取消返回结果是否排序选项，各种情况下结果都不排序，但在返回结果中增加了index，按照任务，按照任务task顺序编号，处理完顺序编号，处理完

后可以对结果进行排序。后可以对结果进行排序。

5、调用、调用fale_useragent库，随机选择库，随机选择useragent。。

6、增加、增加log标识，用来选择是否打印爬虫遇到的错误。标识，用来选择是否打印爬虫遇到的错误。

7、再次封装了两个函数，一个、再次封装了两个函数，一个ahttpGet，一个，一个ahttpGetAll，进一步简化调用，进一步简化调用

修改后的库代码如下：

# !/usr/bin/env python

# -*- coding: utf-8 -*-

import asyncio

import ctypes

import json

from functools import partial

import aiohttp

from cchardet import detect

from fake_useragent import UserAgent

from requests_html import HTML, HTMLSession

__all__ = ('map', 'Session', 'get', 'options', 'head', 'post', 'put', 'patch', 'delete')

class Session:

def __init__(self, *args, **kwargs):

self.session = self

self.headers = HTMLSession().headers

self.cookies = {}

self.request_pool = []

def __getattr__(self, name):

if name in ['get', 'options', 'head', 'post', 'put', 'patch', 'delete']:

new_req = AsyncRequestTask(headers=self.headers, session=self.session)

new_req.__getattr__(name)

self.request_pool.append(new_req)

return new_req.get_params

def __repr__(self):

return f""

class AsyncRequestTask:

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38692100

粉丝: 3
资源: 871

提升ahttp异步爬虫的实用改造与优化

python 5个顶级异步框架推荐

Python中利用aiohttp制作异步爬虫及简单应用

基于Python的异步爬虫框架AsyncSpider设计源码

python 异步协程爬虫

python 爬虫三方库

基于Python异步爬虫的易班打卡项目.zip

Python基于协程的异步爬虫.zip

用Python写网络爬虫.rar_Python项目_python_python网络爬虫_爬虫_爬虫教程

weibo_spider_爬虫python_关键词爬虫_python_python爬虫_spider_源码.rar

python爬虫之异步协程代码

最新资源