利用concurrent.futures加速Python数据处理：3行代码提升4倍效率

需积分: 0 113 浏览量更新于2024-08-05 收藏 578KB PDF 举报

在本文中，作者Adam Geitgey探讨了如何利用Python进行数据处理时提升性能，特别关注的是如何通过并行计算来加速常规脚本。Python虽然以其易学性和灵活性著称，但其单线程执行可能会限制在多核处理器上的性能。文章提到，当处理大量数据时，如处理图像文件夹中的JPEG图像，通过创建缩略图，单个进程可能导致电脑资源浪费。传统的Python处理方法是使用单个进程，例如通过`glob`获取文件夹中的JPEG图像，然后逐个使用`PIL`库处理这些图像。然而，这种方法的瓶颈在于CPU的利用率不足。作者提出了一种利用`concurrent.futures`模块实现并行化的技巧，只需要3行代码即可显著提升效率。首先，导入所需的库，包括`glob`, `os`, 和 `PIL`。接下来，定义一个名为`make_image_thumbnail`的函数，它接收一个图像文件名，打开图片，缩放至128x128像素，并保存为缩略图。在传统实现中，这段代码会顺序执行，对于大量图像来说可能耗时。并行处理的实现则是利用`concurrent.futures`模块的`ThreadPoolExecutor`或`ProcessPoolExecutor`。在新版本的代码中，可以创建一个线程池或进程池，将处理图像的任务分发到多个CPU核心上。通过将`make_image_thumbnail`函数包装在一个`ThreadPoolExecutor`或`ProcessPoolExecutor`的`submit`方法中，任务会被自动并行化。这样，电脑的多个CPU核心可以同时处理不同的图像，从而达到4倍于单线程的处理速度。例如，使用`ThreadPoolExecutor`的代码可能如下所示： ```python from concurrent.futures import ThreadPoolExecutor def parallel_process_images(image_files): with ThreadPoolExecutor(max_workers=4) as executor: thumbnail_filenames = list(executor.map(make_image_thumbnail, image_files)) return thumbnail_filenames image_files = glob.glob("*.jpg") thumbnails = parallel_process_images(image_files) ``` 在这个并行版本中，`max_workers`参数设为4，表示使用4个线程同时处理。`executor.map`会将`image_files`中的每个文件名作为单独任务提交，每个线程独立处理一块数据，最终返回所有缩略图的文件名列表。通过这种方式，作者展示了如何利用Python的并行计算能力，通过简单的代码调整，极大地提高了数据处理脚本的执行效率。这对于那些需要处理大量数据的场景，如图像处理、数据分析等领域，具有实际的应用价值。

行

代

码

，

倍

提

速

你

的

Python

数

据

处

理

脚

本

文-景略集智船长

Python是一门非常适合处理数据和自动化完成重复性工作的编程语言，我们在用数据训练机器学习模型之前，通常都需要对数据

进行预处理，而Python就非常适合完成这项工作，比如需要重新调整几十万张图像的尺寸，用Python没问题！你几乎总是能找到

一款可以轻松完成数据处理工作的Python库。

然而，虽然Python易于学习，使用方便，但它并非运行速度最快的语言。默认情况下，Python程序使用一个CPU以单个进程运行。

不过如果你是在最近几年配置的电脑，通常都是四核处理器，也就是有4个CPU。这就意味着在你苦苦等待Python脚本完成数据处

理工作时，你的电脑其实有75%甚至更多的计算资源就在那闲着没事干！

今天我（作者Adam Geitgey——译者注）就教大家怎样通过并行运行Python函数，充分利用你的电脑的全部处理能力。得益于

Python的 concurrent.futures 模块，我们只需3行代码，就能将一个普通数据处理脚本变为能并行处理数据的脚本，提速4倍。

普

通

Python

处

理

数

据

方

法

比方说，我们有一个全是图像数据的文件夹，想用Python为每张图像创建缩略图。

下面是一个短暂的脚本，用Python的内置glob函数获取文件夹中所有JPEG图像的列表，然后用Pillow图像处理库为每张图像保存

大小为128像素的缩略图：

importglobimportosfromPILimportImagedefmake_image_thumbnail(filename):

#缩略图会被命名为"<original_filename>_thumbnail.jpg"

base_filename,file_extension=os.path.splitext(filename)

thumbnail_filename=f"{base_filename}_thumbnail{file_extension}"

#创建和保存缩略图

image=Image.open(filename)

image.thumbnail(size=(128,128))

image.save(thumbnail_filename,"JPEG")returnthumbnail_filename#循环文件夹中所有JPEG图像，为每张图

像创建缩略图forimage_fileinglob.glob("*.jpg"):

下载后可阅读完整内容，剩余4页未读，立即下载

陈后主

粉丝: 39
资源: 340

利用concurrent.futures加速Python数据处理：3行代码提升4倍效率

codon使python提速

夏老师推荐：惊人！Python+FPGA 实现FPGA开发大提速？！！!

使用Protocol Buffers的C语言拓展提速Python程序的示例

Python print性能优化技巧：高手才知道的代码提速秘方

【Pygments性能优化】：3个步骤，让代码高亮处理提速50%

【邮件处理提速30%】：掌握Python email库高级技巧，优化你的工作流

Python脚本效率提升秘籍：20个优化技巧教你如何飞速执行

Eclipse代码提示大提速：告别卡顿与延迟

Python爬虫优化之道：Selenium提速技巧分享，效率飙升

Python数学优化实战：算法提速与效率提升的7大技巧

最新资源