Python3爬虫：利用异步协程提升效率

66 浏览量更新于2024-08-30 收藏 132KB PDF 举报

"本文主要介绍了Python3爬虫中如何利用异步协程提高效率，适合Python3.5及以上版本。文章首先阐述了IO密集型任务中阻塞问题对爬虫效率的影响，然后深入讲解了异步编程的基础概念，包括阻塞与非阻塞、同步与异步以及多进程和协程的差异。" 在Python3爬虫中，面对IO密集型任务，如网络请求，传统的同步方式往往会导致程序效率低下，因为程序会在等待网络响应时阻塞。为了解决这个问题，我们可以利用异步协程来实现高效的爬虫。异步协程是Python3.5引入的新特性，通过async/await关键字，可以让程序在等待IO操作时释放CPU资源，执行其他任务，从而提高整体性能。首先，我们需要理解几个关键概念： 1. **阻塞**：当程序等待某个资源（如网络、磁盘或用户输入）时，无法继续执行其他任务，这种状态称为阻塞。阻塞会降低程序的执行效率，尤其是在等待网络响应时。 2. **非阻塞**：非阻塞是指程序在等待某个操作时仍能继续执行其他任务。在Python中，通过异步IO可以实现非阻塞，允许程序在等待IO操作的同时进行其他计算。 3. **同步**：同步是指程序单元之间需要通过特定机制（如信号量、锁）协同执行，以确保顺序和一致性。在爬虫中，同步可能体现在并发下载网页时，需要控制请求的顺序以避免数据冲突。 4. **异步**：异步执行的程序单元之间不需要互相等待，可以并发执行。在爬虫中，异步请求可以使爬虫同时处理多个网页，提高了爬取速度。 5. **多进程**：多进程是通过创建多个独立的进程来利用多核CPU并行执行任务，每个进程都有自己的内存空间，适合于CPU密集型任务。然而，对于IO密集型任务，多进程的开销较大，而异步协程则更为高效。异步协程（Coroutine）是一种轻量级的线程，它允许多个任务在单个线程内并发执行，而无需实际的线程切换。Python中的`asyncio`库提供了异步编程的支持。使用`async def`定义协程函数，并使用`await`关键字在需要等待的地方暂停协程，让出CPU时间片。当IO操作完成时，协程会自动恢复执行。例如，在爬虫中，我们可以定义一个异步的请求函数： ```python import aiohttp import asyncio async def fetch_page(url): async with aiohttp.ClientSession() as session: async with session.get(url) as response: return await response.text() ``` 然后，我们可以使用`asyncio.gather()`将多个异步任务组合在一起，同时执行： ```python async def main(): urls = ["http://example.com/page1", "http://example.com/page2", ...] tasks = [fetch_page(url) for url in urls] results = await asyncio.gather(*tasks) # process the results loop = asyncio.get_event_loop() loop.run_until_complete(main()) ``` 在这个例子中，`fetch_page`函数是异步的，它会在等待网络响应时释放CPU，让其他协程有机会执行。`asyncio.gather()`则负责并发执行所有任务，等待它们全部完成。通过这种方式，Python3的异步协程可以显著提高网络爬虫的效率，特别是当需要处理大量HTTP请求时。异步协程不仅解决了IO阻塞问题，还减少了系统资源的消耗，使得单线程能够并发处理多个任务，从而在爬虫开发中发挥重要作用。

python3爬虫中异步协程的用法爬虫中异步协程的用法

1. 前言前言

在执行一些 IO 密集型任务的时候，程序常常会因为等待 IO 而阻塞。比如在网络爬虫中，如果我们使用 requests 库来进行请

求的话，如果网站响应速度过慢，程序一直在等待网站响应，最后导致其爬取效率是非常非常低的。

为了解决这类问题，本文就来探讨一下 Python 中异步协程来加速的方法，此种方法对于 IO 密集型任务非常有效。如将其应

用到网络爬虫中，爬取效率甚至可以成百倍地提升。

注：本文协程使用 async/await 来实现，需要 Python 3.5 及以上版本。

2. 基本了解基本了解

在了解异步协程之前，我们首先得了解一些基础概念，如阻塞和非阻塞、同步和异步、多进程和协程。

2.1 阻塞阻塞

阻塞状态指程序未得到所需计算资源时被挂起的状态。程序在等待某个操作完成期间，自身无法继续干别的事情，则称该程序

在该操作上是阻塞的。

常见的阻塞形式有：网络 I/O 阻塞、磁盘 I/O 阻塞、用户输入阻塞等。阻塞是无处不在的，包括 CPU 切换上下文时，所有的

进程都无法真正干事情，它们也会被阻塞。如果是多核 CPU 则正在执行上下文切换操作的核不可被利用。

2.2 非阻塞非阻塞

程序在等待某操作过程中，自身不被阻塞，可以继续运行干别的事情，则称该程序在该操作上是非阻塞的。

非阻塞并不是在任何程序级别、任何情况下都可以存在的。

仅当程序封装的级别可以囊括独立的子程序单元时，它才可能存在非阻塞状态。

非阻塞的存在是因为阻塞存在，正因为某个操作阻塞导致的耗时与效率低下，我们才要把它变成非阻塞的。

2.3 同步同步

不同程序单元为了完成某个任务，在执行过程中需靠某种通信方式以协调一致，称这些程序单元是同步执行的。

例如购物系统中更新商品库存，需要用“行锁”作为通信信号，让不同的更新请求强制排队顺序执行，那更新库存的操作是同步

的。

简言之，同步意味着有序。

2.4 异步异步

为完成某个任务，不同程序单元之间过程中无需通信协调，也能完成任务的方式，不相关的程序单元之间可以是异步的。

例如，爬虫下载网页。调度程序调用下载程序后，即可调度其他任务，而无需与该下载任务保持通信以协调行为。不同网页的

下载、保存等操作都是无关的，也无需相互通知协调。这些异步操作的完成时刻并不确定。

简言之，异步意味着无序。

2.5 多进程多进程

多进程就是利用 CPU 的多核优势，在同一时间并行地执行多个任务，可以大大提高执行效率。

2.6 协程协程

协程，英文叫做 Coroutine，又称微线程，纤程，协程是一种用户态的轻量级线程。

协程拥有自己的寄存器上下文和栈。协程调度切换时，将寄存器上下文和栈保存到其他地方，在切回来的时候，恢复先前保存

的寄存器上下文和栈。因此协程能保留上一次调用时的状态，即所有局部状态的一个特定组合，每次过程重入时，就相当于进

入上一次调用的状态。

协程本质上是个单进程，协程相对于多进程来说，无需线程上下文切换的开销，无需原子操作锁定及同步的开销，编程模型也

非常简单。

我们可以使用协程来实现异步操作，比如在网络爬虫场景下，我们发出一个请求之后，需要等待一定的时间才能得到响应，但

其实在这个等待过程中，程序可以干许多其他的事情，等到响应得到之后才切换回来继续处理，这样可以充分利用 CPU 和其

他资源，这就是异步协程的优势。

3. 异步协程用法异步协程用法

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38645669

粉丝: 9
资源: 959

Python3爬虫：利用异步协程提升效率

Python-Python3爬虫系列的理论验证比较同步依序下载多进程并发多线程并发和asyncio异步编程之间的效率差别

Python异步爬虫实战：协程高效实现数据抓取

Python3.4后的异步协程爬虫解析

Python异步爬虫实现指南：协程技术深入分析

超高速异步协程Python爬虫算法实现指南

Python爬虫效率提升：协程与线程池应用

python 爬虫 定义一个协程类

python 爬虫 定义一个 协程类 数据解析

超牛逼的异步协程爬虫

Python爬虫：利用多协程提升效率解决等待问题

最新资源

python 爬虫定义一个协程类

python 爬虫定义一个协程类数据解析