Python并行编程：进程分离与子进程应用

102 浏览量更新于2024-08-28 收藏 227KB PDF 举报

Python并行处理是一种利用多核处理器的优势来加速执行复杂任务的技术。在计算机科学中，一个进程被比喻为运行中的程序在一个独立的“气泡”中，这个“气泡”包含所有执行所需资源，如内存、文件访问权限和命令行参数。在Linux/Unix系统中，这些进程信息保存在虚拟的/proc文件系统中，通过进程ID（PID）进行唯一标识。并行处理的核心在于将程序分解为可独立执行的小模块，尤其是通过创建子进程的方式。这种方法利用现代处理器的并发特性，允许代码片段同时运行，从而减少了整体执行时间。这种转变类似于企业管理中的分工，主进程需要管理子进程的协调，确保它们按照正确的顺序和依赖关系运行。在考虑并行化时，开发者需要评估以下关键点： 1. **并行化目的**：程序是一次性运行还是需要定期处理大量数据？这决定了是否值得投入资源进行并行处理。 2. **算法的分解**：算法能否有效地拆分成多个独立的步骤，以便于并行执行？ 3. **数据并行性**：数据是否适合分割并行处理？数据结构和组织方式可能会影响并行化的能力。 4. **依赖性检查**：中间计算结果之间是否存在依赖关系？并行执行可能导致数据一致性问题。 5. **硬件与瓶颈**：是否有硬件限制，如内存带宽或I/O瓶颈？需要优化算法或调整硬件配置以减轻这些影响。 6. **副作用**：并行处理可能带来额外的开销，如上下文切换、通信开销等，这些都需要在实际应用中权衡。常见的并行处理用例包括主进程与子进程协作，守护进程在后台等待激活，以及按需启动的工作进程。在实践中，这种架构通常用于处理大规模数据的分析、处理或分布式计算场景，如数据预处理、机器学习模型训练等。为了有效实施Python并行处理，开发者需要深入理解这些概念，结合实际项目需求和性能指标，灵活运用多线程、多进程、协程、进程池或分布式计算框架（如multiprocessing、concurrent.futures、Dask或Apache Spark）来提升程序的执行效率。

Python并行处理并行处理

简介

当你在机器上启动某个程序时，它只是在自己的“bubble”里面运行，这个气泡的作用就是用来将同一时刻运行的所有程序进行

分离。这个“bubble”也可以称之为进程，包含了管理该程序调用所需要的一切。

例如，这个所谓的进程环境包括该进程使用的内存页，处理该进程打开的文件，用户和组的访问权限，以及它的整个命令行调

用，包括给定的参数。

此信息保存在UNIX/Linux系统的流程文件系统中，该系统是一个虚拟文件系统，可通过/proc目录进行访问。条目都已经根据

进程ID排过序了，该ID是每个进程的唯一标识符。示例1显示了具有进程ID#177的任意选择的进程。

示例1:可用于进程的信息

构建程序代码以及数据

程序越复杂，就越有助于将其分成较小的模块。不仅仅源代码是这样，在机器上执行的代码也同样适用于这条规则。该规则的

典型范例就是使用子进程并行执行。这背后的想法就是：

单个进程包含了可以单独运行的代码段

某些代码段可以同时运行，因此原则上允许并行

使用现代处理器和操作系统的特性，例如可以使用处理器的所有核心，这样就可以减少程序的总执行时间

减少程序/代码的复杂性，并将工作外包专门的代理

使用子进程需要重新考虑程序的执行方式，从线性到并行。它类似于将公司的工作视角从普通员工转变为经理——你必须关注

谁在做什么，某个步骤需要多长时间，以及中间结果之间的依赖关系。

这有利于将代码分割成更小的部分，这些更小的部分可以由专门用于此任务的代理执行。如果还没有想清楚，试想一下数据集

的构造原理，它也是同样的道理，这样就可以由单个代理进行有效的处理。但是这也引出了一些问题：

为什么要将代码并行化?落实到具体案例中或者在努力的过程中，思考这个问题有意义吗?

程序是否打算只运行一次，还是会定期运行在类似的数据集上?

能把算法分成几个单独的执行步骤吗?

数据是否允许并行化?如果不允许，那么数据组织将以何种方式进行调整?

计算的中间结果是否相互依赖?

需要对硬件进行调整吗?

在硬件或算法中是否存在瓶颈，如何避免或者最小化这些因素的影响?

并行化的其他副作用有哪些?

可能的用例就是主进程，以及后台运行的等待被激活的守护进程(主/从)。此外，这可能是启动按需运行的工作进程的一个主要

过程。在实践中，主要的过程是一个馈线过程，它控制两个或多个被馈送数据部分的代理，并在给定的部分进行计算。

请记住，由于操作系统所需要的子进程的开销，并行操作既昂贵又耗时。与以线性方式运行两个或多个任务相比，在并行的情

况下，根据您的用例，可以在每个子过程中节省25%到30%的时间。例如，如果在系列中执行了两项消耗5秒的任务，那么总

共需要10秒的时间，并且在并行化的情况下，在多核机器上平均需要8秒。有3秒是用于各种开销，即这部分是无法压缩和优

化的，所以速度提高是有极限的。

运行与Python并行的函数

Python提供了四种可能的处理方式。首先可以使用multiprocessing模块并行执行功能。第二，进程的替代方法是线程。从技

术上讲，这些都是轻量级的进程，不在本文的范围之内。想了解更加详细的内容，可以看看Python的线程模块。第三，可以

使用os模块的system()方法或subprocess模块提供的方法调用外部程序，然后收集结果。

multiprocessing模块涵盖了一系列方法来处理并行执行例程。这包括进程，代理池，队列以及管道。

清单1使用了五个代理程序池，同时处理三个值的块。对于代理的数量和对chunksize的值都是任意选择的，用于演示目的。根

据处理器中核心的数量来调整这些值。

Pool.map()方法需要三个参数 - 在数据集的每个元素上调用的函数，数据集本身和chunksize。在清单1中，我们使用square函

数，并计算给定整数值的平方。此外，chunksize不是必须的。如果未明确设置，则默认chunksize为1。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38517113

粉丝: 3

Python并行编程：进程分离与子进程应用

python并行编程pdf

partools:单机多核大数据结构的Python并行处理。 避免对只读大数据结构进行不必要的复制

Python并行数值计算

python并行处理for循环

python并行处理

什么Python并行处理

用dask dataframe等Python并行处理大文件代码示例

Python 并行处理数据

python并行处理z3约束

python并行处理for循环_如何在Python中将for循环转换为并行处理？

最新资源

partools:单机多核大数据结构的Python并行处理。避免对只读大数据结构进行不必要的复制