Python中的进程池和进程池Executor

发布时间: 2023-12-19 06:19:36 阅读量: 31 订阅数: 31
# 1. 理解进程池和进程池Executor ## 1.1 什么是进程池? 在Python中,进程池是一种用于管理和调度进程的工具。它可以帮助我们实现并行处理任务,提高程序的性能和效率。进程池通过预先创建一定数量的进程,并维护一个任务队列来实现任务的调度和执行。 ## 1.2 进程池Executor的作用和优势 进程池Executor是Python标准库concurrent.futures中的一个类,它对进程池进行了封装和扩展,提供了更加高级和便捷的接口来执行并发任务。进程池Executor可以帮助我们简化并行任务的管理和结果处理,提高代码的可读性和可维护性。 ## 1.3 进程池与线程池的对比 在并发编程中,除了进程池之外,还有一种常见的并发处理方式就是线程池。进程池和线程池都有自己的适用场景和优势,我们将在本章节中进行对比分析,帮助读者更好地理解进程池的特点和使用场景。 # 2. 使用进程池执行并行任务 在多线程编程中,我们经常会遇到需要同时执行多个任务的场景。然而,Python的全局解释器锁(GIL)限制了多线程的并行度,导致多线程在CPU密集型任务中并不能充分利用多核处理器的优势。为了解决这个问题,Python提供了进程池和进程池Executor这两个功能强大的模块,可以帮助我们实现并行任务的高效执行。 #### 2.1 如何创建和使用进程池 在使用进程池之前,首先需要通过`multiprocessing`模块来创建一个进程池对象。进程池的大小决定了可以同时执行的任务数量,通常根据计算机的CPU核心数来确定。下面是创建进程池的示例代码: ```python import multiprocessing # 创建进程池并指定大小为4 pool = multiprocessing.Pool(4) ``` 创建进程池之后,我们可以使用`apply()`或`map()`方法来将任务提交给进程池执行。`apply()`方法适用于只有一个参数的任务,而`map()`方法适用于多个参数的任务。下面是使用进程池执行任务的示例代码: ```python import multiprocessing # 任务函数 def task(n): return n * n if __name__ == '__main__': # 创建进程池并指定大小为4 pool = multiprocessing.Pool(4) # 使用apply()方法提交任务 result = pool.apply(task, args=(5,)) print(result) # 使用map()方法提交任务 numbers = [1, 2, 3, 4, 5] results = pool.map(task, numbers) print(results) # 关闭进程池 pool.close() pool.join() ``` 在上面的示例代码中,我们定义了一个简单的任务函数`task()`,它接受一个参数,并返回其平方值。我们首先使用`apply()`方法提交一个参数为5的任务,并通过`print()`函数输出任务的结果。然后,我们使用`map()`方法提交了一个包含多个参数的任务列表,并通过`print()`函数输出任务的结果列表。 #### 2.2 进程池中的任务调度和管理 进程池不仅可以帮助我们并行执行任务,还可以自动进行任务的调度和管理。进程池会根据任务的提交顺序和优先级来决定任务的执行顺序,同时还可以根据需要动态调整进程的数量。 除了`apply()`和`map()`方法外,进程池还提供了一些其他的方法来管理和控制任务的执行。下面是一些常用的进程池方法示例代码: ```python import multiprocessing import time # 任务函数 def task(n): time.sleep(n) return n if __name__ == '__main__': # 创建进程池并指定大小为4 pool = multiprocessing.Pool(4) # 使用apply_async()方法提交任务 result = pool.apply_async(task, args=(2,)) result.wait() # 等待任务执行完毕 print(result.get()) # 获取任务的结果 # 使用imap_unordered()方法提交任务 numbers = [3, 1, 4, 2, 5] results = pool.imap_unordered(task, numbers) for result in results: print(result) # 使用starmap()方法提交任务 tasks = [(1,), (2,), (3,), (4,), (5,)] results = pool.starmap(task, tasks) print(results) # 关闭进程池 pool.close() pool.join() ``` 在上面的示例代码中,我们首先使用`apply_async()`方法提交了一个参数为2的任务,并使用`wait()`方法等待任务执行完毕。然后,我们使用`get()`方法获取任务的结果并通过`print()`函数输出。 接下来,我们使用`imap_unordered()`方法提交了一个包含多个参数的任务列表,并使用`for`循环遍历获取任务的结果并输出。这里需要注意的是,`imap_unordered()`方法返回的结果顺序可能与任务提交的顺序不完全一致。 最后,我们使用`starmap()`方法提交了一个参数为元组的任务列表,它可以一次性提交多个参数的任务,并返回一个结果列表。我们也通过`print()`函数输出了任务的结果。 #### 2.3 最佳实践:优化并行任务以提高性能 在使用进程池执行并行任务时,有一些最佳实践可以帮助我们优化任务的执行以提高性能。 首先,我们可以通过合理地设置进程池的大小来充分利用计算机的多核处理器,并避免资源浪费。通常,进程池的大小应该与CPU核心数相匹配。 其次,我们可以使用`chunksize`参数来控制任务的分块大小。将任务分块可以提高任务的调度效率,减少进程间的通信开销。适当地调整`chunksize`参数可以使任务的执行更加高效。 最后,我们还可以使用`asyncio`模块结合进程池来实现异步任务的并行执行。`asyncio`是Python的异步编程框架,可以帮助我们高效地处理大量的IO密集型任务。通过将异步任务与进程池相结合,可以提高并行任务的吞吐量和响应性能。 综上所述,使用进程池可以实现并行任务的高效执行。通过合理地使用进程池的方法和技巧,我们可以优化任务的执行,提高程序的性能。在下一章节中,我们将介绍进程池Executor的高级用法。 # 3. 进程池Executor的高级用法 在前面的章节中,我们已经介绍了如何使用进程池来执行并行任务。进程池提供了一种简单且高效的方式来管理和调度多个子进程。本章将进一步讨论进程池Executor的高级用法,包括如何使用Executor执行可调用对象、获取并处理任务的结果以及异步执行任务和处理异常。 #### 3.1 使用Executor执行可调用对象 在Python中,我们经常需要执行一些可调用对象,例如函数或方法。使用进程池Executor,我们可以更方便地执行这些可调用对象,并让它们在多个子进程中并发地运行。 下面是一个简单的示例,展示了如何使用Executor执行一个函数: ```python from concurrent.futures import ProcessPoolExecutor def square(x): return x ** 2 if __name__ == '__main__': with ProcessPoolExecutor() as executor: results = executor.map(square, range(10)) print(list(results)) ``` 在这个示例中,我们定义了一个square函数,它接受一个参数x并返回x的平方。在主程序中,我们使用Executor的map方法来执行square函数,并传入一个范围为0到9的迭代器作为参数。map方法会将迭代器中的每个元素映射到square函数,并返回一个生成器,我们可以将它转换成列表以获取结果。 #### 3.2 获取并处理任务的结果 当我们使用Executor执行任务时,有时候需要获取并处理每个任务的结果。Executor提供了几种方式来实现这个目标。 首先,我们可以使用Executor的submit方法来提交一个任务,并返回一个Future对象。通过Future对象,我们可以异步地获取任务的结果。下面是一个例子: ```python from concurrent.futures import ProcessPoolExecutor def square(x): return x ** 2 if __name__ == '__main__': with ProcessPoolExecutor() as executor: future = executor.submit(square, 5) result = future.result() print(result) ``` 在这个例子中,我们使用Executor的submit方法提交了一个square函数的任务,并传入参数5。submit方法会返回一个Future对象,我们可以通过调用Future的result方法来获取任务的结果。 除了使用submit方法,我们还可以使用Executor的map方法来获取任务的结果。map方法会返回一个生成器,我们可以迭代生成器来获取每个任务的结果。下面是一个示例: ```python from concurrent.futures import ProcessPoolExecutor def square(x): return x ** 2 if __name__ == '__main__': with ProcessPoolExecutor() as executor: results = executor.map(square, range(10)) for result in results: print(result) ``` 在这个例子中,我们使用Executor的map方法执行了一个square函数的任务,并传入一个范围为0到9的迭代器作为参数。我们通过迭代results生成器来获取每个任务的结果,并打印出来。 #### 3.3 异步执行任务和处理异常 在并发编程中,有时候我们需要异步地执行任务,并在任务执行完成后处理异常。进程池Executor提供了一些方法来实现这个目标。 首先,我们可以使用Executor的submit方法来异步地执行任务。通过调用submit方法,我们可以将任务提交给Executor并立即返回一个Future对象。我们可以通过调用Future的result方法来等待任务执行完成并获取任务的结果。下面是一个示例: ```python from concurrent.futures import ProcessPoolExecutor def divide(a, b): return a / b if __name__ == '__main__': with ProcessPoolExecutor() as executor: future = executor.submit(divide, 10, 0) try: result = future.result() except ZeroDivisionError: print("Divide by zero") ``` 在这个例子中,我们定义了一个divide函数,它接受两个参数并返回它们的商。我们使用Executor的submit方法提交了一个divide函数的任务,并传入参数10和0。由于除数为0会引发ZeroDivisionError异常,我们通过try-except语句来捕获异常并打印错误信息。 除了使用submit方法,我们还可以使用Executor的map方法来异步地执行任务。通过调用map方法,我们可以将多个任务提交给Executor并返回一个生成器。我们可以迭代生成器来获取每个任务的结果,并使用try-except语句来处理异常。 在实际开发中,我们经常需要处理大量的任务,并希望能够异步地执行它们。进程池Executor提供了一种简单而强大的方式来处理并发任务,使我们能够轻松地实现并行计算和任务调度。在下一章中,我们将继续讨论进程池的资源管理和性能优化。 # 4. 进程池的资源管理和性能优化 进程池在并行处理任务时,需要合理管理资源并优化性能,本章将深入探讨进程池的资源管理和性能优化策略。 #### 4.1 进程池中的内存管理策略 在并行处理大量任务时,进程池需要合理管理内存资源,避免内存泄露和资源浪费。优秀的内存管理策略能够提升并行任务处理的效率,下面是使用Python `multiprocessing` 模块时,进程池中的内存管理策略示例代码: ```python import multiprocessing def task(num): result = num * num return result if __name__ == '__main__': # 创建进程池 pool = multiprocessing.Pool(processes=4) # 执行并行任务 numbers = [1, 2, 3, 4, 5] results = pool.map(task, numbers) # 关闭进程池 pool.close() pool.join() ``` #### 4.2 进程池的并发控制和资源限制 为了避免系统资源被过度占用,进程池需要合理控制并发数和资源限制。通过设定最大并发数和资源限制,可以有效地保护系统资源,防止进程池对系统造成过大负担。下面是一个使用Python `concurrent.futures` 模块中的 `ProcessPoolExecutor` 进行并发控制和资源限制的示例代码: ```python import concurrent.futures def task(num): result = num * num return result if __name__ == '__main__': # 创建进程池Executor,并设定最大并发数为 4 with concurrent.futures.ProcessPoolExecutor(max_workers=4) as executor: # 提交任务到进程池Executor numbers = [1, 2, 3, 4, 5] results = list(executor.map(task, numbers)) ``` #### 4.3 如何监控和优化进程池的性能 对进程池的性能进行监控和优化是非常重要的,可以通过监控进程池的运行情况、利用性能分析工具、调整任务分配策略等手段来提升进程池的性能。例如,在Python中,可以使用 `psutil` 模块来监控进程池的资源占用情况,通过调整任务分配策略和参数来优化性能。 以上是进程池的资源管理和性能优化的基本方法,合理的资源管理和性能优化能够使进程池发挥最大的作用,提升并行任务处理的效率。 在下一章节中,我们将深入探讨进程池在实际项目中的应用。 # 5. 进程池在实际项目中的应用 进程池在实际项目中有着广泛的应用,特别是在处理大规模数据、加速网络通信和异步任务处理方面发挥着重要作用。 #### 5.1 使用进程池处理大规模数据 在数据处理领域,进程池可以极大地提高数据处理的效率。通过将数据分成若干块,然后利用进程池并行处理这些数据块,可以快速地完成数据加工、转换和分析工作。比如在数据清洗、数据挖掘、机器学习等领域,通过进程池可以快速地完成大规模数据的处理任务。 ```python import multiprocessing # 定义数据处理函数 def process_data(data_chunk): # 对数据块进行处理 pass if __name__ == "__main__": # 将大规模数据分割成多个数据块 data = [...] chunk_size = len(data) // multiprocessing.cpu_count() data_chunks = [data[i:i + chunk_size] for i in range(0, len(data), chunk_size)] # 创建进程池 with multiprocessing.Pool(processes=multiprocessing.cpu_count()) as pool: # 并行处理数据块 processed_results = pool.map(process_data, data_chunks) # 对处理结果进行合并和汇总 final_result = merge_and_summarize(processed_results) ``` #### 5.2 在网络编程中使用进程池加速通信 在网络编程中,进程池可以用于加速网络通信的处理。比如在服务器端处理大量的网络请求时,可以利用进程池并行处理这些请求,从而提高服务器的并发处理能力和响应速度。同时,进程池还可以用于并行地执行网络通信任务,如网络数据的收发、解析和处理等操作。 ```python import multiprocessing import socket # 定义网络通信任务函数 def handle_client(client_socket, client_address): # 处理客户端请求 pass if __name__ == "__main__": # 创建套接字并监听端口 server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM) server_socket.bind(("127.0.0.1", 8888)) server_socket.listen(5) # 创建进程池 with multiprocessing.Pool(processes=multiprocessing.cpu_count()) as pool: while True: # 接受客户端连接 client_socket, client_address = server_socket.accept() # 在进程池中并行处理客户端请求 pool.apply_async(handle_client, args=(client_socket, client_address)) ``` #### 5.3 进程池在Web开发和异步任务处理中的应用 在Web开发和异步任务处理中,进程池也扮演着重要的角色。比如在Web框架中,可以利用进程池并行处理来自客户端的请求,以提高Web服务器的并发处理能力。同时,对于需要异步处理的任务,可以将这些任务提交给进程池进行并行处理,以提高系统的响应速度和并发能力。 ```python from concurrent.futures import ProcessPoolExecutor import asyncio # 定义异步任务 async def async_task(): # 异步任务处理 pass if __name__ == "__main__": loop = asyncio.get_event_loop() executor = ProcessPoolExecutor(max_workers=multiprocessing.cpu_count()) # 在进程池中执行异步任务 result = loop.run_in_executor(executor, async_task) ``` 通过以上例子,我们可以看到进程池在实际项目中的多种应用场景,包括大规模数据处理、网络通信加速和异步任务处理等方面的应用。进程池的高效并行能力为这些应用场景下的任务处理提供了重要的支持。 # 6. 进程池的局限性和注意事项 进程池作为并发编程的重要工具,虽然具有诸多优势,但在实际应用中仍然存在一些局限性和需要注意的事项。本章将深入探讨进程池的局限性以及相应的注意事项,帮助读者更好地理解和使用进程池。 #### 6.1 进程池的适用场景和局限性 进程池在处理CPU密集型任务时效果显著,然而在以下场景下可能存在局限性: - **大规模并行I/O密集型任务:** 对于大量的I/O密集型任务,进程池可能并不是最佳选择,因为I/O操作往往会导致进程阻塞,降低并行效率。 - **大规模数据共享:** 当进程需要共享大规模数据或状态时,由于进程间内存独立,数据共享和同步可能会带来额外的复杂性和开销。 - **资源消耗和启动时间:** 每个进程都需要独立的内存空间和其他系统资源,因此大规模进程池可能带来较大的资源消耗和启动时间。 #### 6.2 进程池中的常见问题和解决方案 在使用进程池时,有一些常见问题需要引起注意,并且需要针对这些问题采取相应的解决方案: - **内存占用和泄露:** 大规模进程池可能会带来内存占用过高和泄露的问题,需要合理控制并发数量和及时释放资源。 - **进程间通信和数据同步:** 进程间通信和数据同步是并行任务中的关键问题,需要选择合适的机制(如队列、共享内存)来进行数据共享和通信。 - **异常处理和进程退出:** 进程池中的任务如果出现异常,需要有相应的处理机制来捕获和处理异常,并合理管理进程的退出和重启。 #### 6.3 最佳实践:如何避免进程池的陷阱 为了避免进程池在实际应用中可能遇到的问题,以下是一些最佳实践建议: - **合理的进程数量控制:** 对于不同的任务和系统,需要合理控制进程池中的进程数量,避免资源浪费和性能下降。 - **异常处理和日志记录:** 在进程池中执行任务时,需要充分考虑异常处理和日志记录,保证任务执行的稳定性和可追溯性。 - **定期监控和优化:** 长期运行的进程池需要定期监控和优化,包括内存占用、任务执行效率、异常情况等方面的调优。 通过以上的深入剖析,读者可以更加全面地了解进程池的局限性和注意事项,为进程池的实际应用提供更加全面的参考和指导。 接下来我们将深入探讨一些进程池的最佳实践,并结合代码示例进行详细说明。
corwn 最低0.47元/天 解锁专栏
买1年送3个月
点击查看下一篇
profit 百万级 高质量VIP文章无限畅学
profit 千万级 优质资源任意下载
profit C知道 免费提问 ( 生成式Al产品 )

相关推荐

doc
一个进程池的服务器程序 下面做了非常简单的http服务器,该服务器只能接收Get请求。 流程大概如下: 1,父进程listen,创建pipe(下面所有父子进程之间的通信都用该pipe) 2,父进程预fork n个子进程 3,各个子进程accept(listenfd),即所有子进程竞争accept请求。由于listenfd是在fork之前就有的,所以所有子进程都可以访问到,不需用到“进程间文件描述符传递”问题; 4,子进程每accept到一个请求都告诉父进程,父进程把请求数加1;子进程没完成一个请求,父进程把请求数减1;当父进程发现请求数 >= 子进程数时,父进程创建新的子进程,并把子进程数加1(当然子进程数有个预先上限);当父进程发现子进程数大于请求数加1时,父进程杀死多余的子进程。 总的来说,思想是让子进程accept并处理请求,父进程通过子进程发来的信息控制请求数与子进程数之间的关系。 代码如下: 代码如下: #include <time.h> #include <sys/types.h> #include <sys/socket.h> #include <arpa/inet.h> #include <string.h> #include <stdio.h> #include <stdlib.h> #include <dirent.h> #include <sys/stat.h> #include <signal.h> #include <sys/wait.h> #include #include <errno.h> #include <unistd.h> #include <fcntl.h> #define PRECHILD 5 #define MAXCHILD 50 #define BUFSIZE 4096 #define PIDPATH "pid" #define head503 "HTTP/1.1 503 Service unavailable\r\n" #define head404 "HTTP/1.1 404 Not Found\r\n" #define head200 "HTTP/1.1 200 0K\n\rContent—Type: text/html\n\rContent—Length: " int len503, len404, len200; int fd1[2], fd2[2]; typedef struct { pid_t pid; char status; // 'n' means new request; 'f' means finish the request } REPORT; void answer(int listenfd) { int connfd; char buf[BUFSIZE]; int count; int pid = getpid(); struct sockaddr_in cliaddr; int size = sizeof(cliaddr); char comm; REPORT rep; rep.pid = pid; while (1) { connfd = accept(listenfd, (struct sockaddr *)&cliaddr,(socklen_t *)&size ); //子进程accept请求 rep.status = 'n'; if (write(fd1[1], &rep, sizeof(rep)) < 0) { //通知父进程已经accept了请求 perror("write pipe new failed"); exit(-1); } count = read(connfd, buf, BUFSIZE); char req[10]; char filepath[256]; sscanf(buf, "%s%s", req, filepath + 1); filepath[0] = '.'; if (strcmp("GET", req) != 0) {//503 write(connfd, head503, len503); //goto err_out; close(connfd); exit(-1); } char content[BUFSIZE]; struct stat stbuf; if (lstat(filepath, &stbuf) != 0) { int err = errno; if (err == ENOENT) {//404 write(connfd, head404, len404); } close(connfd); exit(-1); } count = write(connfd, head200, len200); u_int filesize = stbuf.st_size; sprintf(content, "%u\n\r\n\r", filesize); count = write(connfd, content, strlen(content)); FILE *fp = fopen(filepath, "r"); if (fp == NULL) { printf("open file %s failed\n", filepath); close(connfd); exit(-1); } while((count = fread(content, 1, sizeof(content), fp)) > 0) { //printf("%s", content); if (write(connfd, content, count) != count) { printf("write failed\n"); } } fclose(fp); close(connfd); rep.status = 'f'; if (write(fd1[1], &rep, sizeof(rep)) < 0) {//告诉父进程自己处理完了请求 perror("write pipe finish failed"); exit(-1); } if (read(fd2[0], &comm, 1) < 1) {//等待来自父进程的命令 perror("read pipe failed"); exit(-1); } //printf("[%d] reve %c from pa\n", pid, comm); if (comm == 'e') { //收到exit命令 printf("[%d] exit\n", pid); exit(-1); } else if (comm == 'c') { //收到继续accept的命令 printf("[%d] continue\n", pid); } else { printf("[%d] comm : %c illeagle\n", pid, comm); } } } void usage() { printf("Usage: http-serv port\n"); } int write_pid() { int fd; if ((fd = open(PIDPATH, O_WRONLY | O_TRUNC | O_CREAT, S_IWUSR)) < 0){ perror("open pidfile faild"); return -1; } struct flock lock; lock.l_type = F_WRLCK; lock.l_start = 0; lock.l_whence = SEEK_SET; lock.l_len = 0; if (fcntl(fd, F_SETLK, &lock) == -1) { int err = errno; perror("fcntl faild"); if (err == EAGAIN) { printf("Another http-serv process is running now!\n"); } return -1; } return 0; } void daemon_init() { //clear file creation mask; umask(0); //become a session leader if (fork() != 0) exit(-1); if (setsid() < 0) exit(-1); //make sure can be never get the TTY control if (fork() != 0) exit(-1); //may chdir here int i; for (i = 0; i < 1024; i++) close(i); /* * Attach file descriptors 0, 1, and 2 to /dev/null. */ int fd0, fd1, fd2; fd0 = open("/dev/null", O_RDWR); fd1 = dup(0); fd2 = dup(0); if (fd0 != 0 || fd1 != 1 || fd2 != 2) { printf("init failed\n"); exit(-1); } } int main(int argc, char **argv) { int listenfd; struct sockaddr_in servaddr; pid_t pid; if (argc != 2) { usage(); return -1; } signal(SIGCHLD, SIG_IGN); len200 = strlen(head200); len404 = strlen(head404); len503 = strlen(head503); daemon_init(); //转为后台程序,如需打印调试,把这行注释掉 if (write_pid() < 0) //避免同时有多个该程序在运行 return -1; if (pipe(fd1) < 0) { perror("pipe failed"); exit(-1); } if (s_pipe(fd2) < 0) { perror("pipe failed"); exit(-1); } int port = atoi(argv[1]); //initialize servaddr and listenfd... bzero(&servaddr, sizeof(servaddr)); servaddr.sin_family = AF_INET; servaddr.sin_addr.s_addr = htonl(INADDR_ANY); servaddr.sin_port = htons(port); listenfd = socket(AF_INET, SOCK_STREAM, 0); bind(listenfd, (struct sockaddr *) &servaddr, sizeof(servaddr)); listen(listenfd, 1000); int i; for (i = 0; i < PRECHILD ; i++) { //父进程预fork 子进程 if ((pid = fork()) < 0) { perror("fork faild"); exit(3); } else if (pid == 0) { answer(listenfd); } else { printf("have create child %d\n", pid); } } char e = 'e'; char c = 'c'; int req_num = 0; int child_num = PRECHILD; REPORT rep; while (1) { //printf("req_num = %d, child_num = %d\n", req_num, child_num); if (read(fd1[0], &rep, sizeof(rep)) < sizeof(rep)) {//等待子进程发来消息 perror("parent read pipe failed"); exit(-1); } //printf("parent: receive from %d\n", pid); if (rep.status == 'n') {//子进程刚accept了新的请求 req_num ++; printf("parent: %d have receive new request\n", rep.pid); if (req_num >= child_num && child_num <= MAXCHILD) { //请求数过多,创建更多子进程 if ((pid = fork()) < 0) { perror("fork faild"); exit(3); } else if (pid == 0) { answer(listenfd); } else { printf("have create child %d\n", pid); child_num ++; } } } else if (rep.status == 'f') {//子进程刚处理完了一个请求 req_num --; //printf("parent: %d have finish a request\n", rep.pid); if (child_num > (req_num + 1) && child_num > PRECHILD) {//子进程数过多,删除多余的子进程 if (write(fd2[1], &e, sizeof(e)) < sizeof(e)) { perror("pa write pipe failed"); exit(-2); } //printf("tell child exit\n"); child_num --; } else { if (write(fd2[1], &c, sizeof(c)) < sizeof(c)) {//让子进程继续等待accept perror("pa write pipe failed"); exit(-2); } //printf("tell child continue\n"); } } } return 0; } 利用fork()创建多个子进程 11:09 pm on Oct 23rd 2010 greenMay 之间我学习了创建一个子进程,也大致理解了子进程与父进程的关系。今天无意间遇到一个创建多个子进程的问题,结果还发现了点小bug,现在写下来和大家分享。 我需要实现的目标如下:编写一段源程序,使系统调用fork()创建两个子进程,当此程序运行时,在系统中有一个父进程和两个子进程活动。让每一个进程在屏幕上显示一个字符:父进程显示字符“a”;子进程分别显示字符“b”和字符“c”。 一开始我的主要代码如下: view source print? 01 int main() 02 { 03 pid_t child1; 04 pid_t child2; 05 child1 = fork(); 06 child2 = fork(); 07 if(child1 == 0) 08 { 09 printf("Child1:a\n"); 10 return 0; 11 } 12 if(child2 == 0) 13 { 14 printf("Child2:b\n"); 15 return 0; 16 } 17 else 18 { 19 waitpid(child1,NULL,0); 20 waitpid(child2,NULL,0); 21 printf("Parent:c\n"); 22 } 23 return 0; 24 } 奇怪的是,我得到的是这样一个结果: Child1:a Child1:a Child2:b Parent:c 竟然有两个Child1。可是我的代码里明明只是让Chidl1打印一次啊。搜索到一篇好的博文。文章仔细分析了和我几乎相同的情况。事实上,是我的粗心和对fork()的理解不深刻导致了上述的奇怪问题。 我们知道,fork()之后,我们还是首先执行的是父进程,也就是如下代码段: view source print? 1 waitpid(child1,NULL,0); 2 waitpid(child2,NULL,0); 3 printf("Parent:c\n"); 然后waitpid(child1,NULL,0),进入child1的执行。child1将要执行的是如下的的代码段: view source print? 1 child2 = fork(); 2 if(child1 == 0) 3 { 4 printf("Child1:a\n"); 5 return 0; 6 } 注意,第一行的那个child2 = fork()!这就意味着对于child1来说,它自己又要创建一个子进程,这时候他成为了父亲。这时候,它有一个儿子child2,但是这个child2不同与我们刚才定义的那个child2,这个child2其实是parent的孙子。之所以又打印了一边Child1。如果加上如下代码就明白了: view source print? 01 child2 = fork(); 02 if(child1 == 0) 03 { 04 if(child2 == 0) 05 { 06 printf("GrandChild!\n"); 07 } 08 printf("Child1:a\n"); 09 return 0; 10 } 这时候将出现: Child1:a GrandChild! Child1:a Child2:b Parent:c 恩,这就很明白了!我无意间多调用了一次child2=fork(); 所以,如果要达到我最初的目的,需要改变child2的fork()的位置: view source print? 01 #include <stdio.h> 02 #include <unistd.h> 03 #include <sys/types.h> 04 #include <sys/wait.h> 05 int main() 06 { 07 pid_t child1; 08 pid_t child2; 09 child1 = fork(); 10 child2 = fork(); 11 if(child1 == 0) 12 { 13 printf("Child1:a\n"); 14 return 0; 15 } 16 if(child2 == 0) 17 { 18 printf("Child2:b\n"); 19 return 0; 20 } 21 else 22 { 23 waitpid(child1,NULL,0); 24 waitpid(child2,NULL,0); 25 printf("Parent:c\n"); 26 } 27 return 0; 28 } 我参照的那个博文最后给出了一个更为普遍的fork()创建多进程的程序框架: view source print? 01 pid_t create_child() 02 { 03 pid_t p = fork(); 04 if( p == 0 ) 05 { 06 printf("in child %d\n", getpid()); 07 //do something 08 return 0; 09 } 10 return p; 11 } 12 int main(void) 13 { 14 pid_t p1 = create_child(); 15 pid_t p2 = create_child(); 16 17 int st1, st2; 18 waitpid( p1, &st1, 0); 19 waitpid( p2, &st2, 0); 20 printf("in parent, pid = %d\n", getpid()); 21 printf("in parent, child 1 exited with %d\n", st1); 22 printf("in parent, child 2 exited with %d\n", st2); 23 return 0; 24 } 注意到,期中的create_child()函数最后有一个return p。这个return p将pid返回给了父进程,其实也是将子进程对于CPU的控制权交还给了父进程,这样就避免了多个子进程在创建之时互相影响了。 可以说,今天的这个问题真是一个有趣的事情。代码有的时候就是这么奇怪~ 最后,向我引用的那篇文章致敬! Linux内核对多进程和多线程的支持方式: 线程机制支持并发程序设计技术,在多处理器上能真正保证并行处理。而在linux实现线程很特别,linux把所有的线程都当作进程实现。linux下线程看起来就像普通进程(只是该进程和其他进程共享资源,如地址空间)。上述机制与Microsoft windows或是Sun Solaris实现差异很大。 Linux的线程实现是在核外进行的,核内提供的是创建进程的接口do_fork()。内核提供了两个系统调用__clone()和fork(),最终都用不同的参数调用do_fork()核内API。 do_fork() 提供了很多参数,包括CLONE_VM(共享内存空间)、CLONE_FS(共享文件系统信息)、CLONE_FILES(共享文件描述符表)、CLONE_SIGHAND(共享信号句柄表)和CLONE_PID(共享进程ID,仅对核内进程,即0号进程有效)。当使用fork系统调用产生多进程时,内核调用do_fork()不使用任何共享属性,进程拥有独立的运行环境。当使用pthread_create()来创建线程时,则最终设置了所有这些属性来调用__clone(),而这些参数又全部传给核内的do_fork(),从而创建的”进程”拥有共享的运行环境,只有栈是独立的,由 __clone()传入。 即:Linux下不管是多线程编程还是多进程编程,最终都是用do_fork实现的多进程编程,只是进程创建时的参数不同,从而导致有不同的共享环境。Linux线程在核内是以轻量级进程的形式存在的,拥有独立的进程表项,而所有的创建、同步、删除等操作都在核外pthread库中进行。pthread 库使用一个管理线程(__pthread_manager() ,每个进程独立且唯一)来管理线程的创建和终止,为线程分配线程ID,发送线程相关的信号,而主线程pthread_create()) 的调用者则通过管道将请求信息传给管理线程。 很多朋友都说使用多线程的好处是资源占用少,其隐含之意就是说进程占用资源比线程多,对吧?但实际上Linux下多进程是否就真的点用很多资源呢?暂且不说进程是否比线程占用资源多,就进程占用资源的多少情况而言,Linux确实是做得相当节省的。产生一个多进程时肯定是要产生的一点内存是要复制进程表项,即一个task_struct结构,但这个结构本身做得相当小巧。其它对于一个进程来说必须有的数据段、代码段、堆栈段是不是全盘复制呢?对于多进程来说,代码段是肯定不用复制的,因为父进程和各子进程的代码段是相同的,数据段和堆栈段呢?也不一定,因为在Linux里广泛使用的一个技术叫copy-on-write,即写时拷贝。copy-on-write意味着什么呢?意味着资源节省,假设有一个变量x在父进程里存在,当这个父进程创建一个子进程或多个子进程时这个变量x是否复制到了子进程的内存空间呢?不会的,子进程和父进程使用同一个内存空间的变量,但当子进程或父进程要改变变量x的值时就会复制该变量,从而导致父子进程里的变量值不同。父子进程变量是互不影响的,由于父子进程地址空间是完全隔开的,变量的地址可以是完全相同的。 Linux的”线程”和”进程”实际上处于一个调度层次,共享一个进程标识符空间,这种限制使得不可能在Linux上实现完全意义上的POSIX线程机制,因此众多的Linux线程库实现尝试都只能尽可能实现POSIX的绝大部分语义,并在功能上尽可能逼近。Linux进程的创建是非常迅速的。内核设计与实现一书中甚至指出Linux创建进程的速度和其他针对线程优化的操作系统(Windows,Solaris)创建线程的速度相比,测试结果非常的好,也就是说创建速度很快。由于异步信号是内核以进程为单位分发的,而LinuxThreads的每个线程对内核来说都是一个进程,且没有实现”线程组”,因此,某些语义不符合POSIX标准,比如没有实现向进程中所有线程发送信号,README对此作了说明。LinuxThreads中的线程同步很大程度上是建立在信号基础上的,这种通过内核复杂的信号处理机制的同步方式,效率一直是个问题。LinuxThreads 的问题,特别是兼容性上的问题,严重阻碍了Linux上的跨平台应用(如Apache)采用多线程设计,从而使得Linux上的线程应用一直保持在比较低的水平。在Linux社区中,已经有很多人在为改进线程性能而努力,其中既包括用户级线程库,也包括核心级和用户级配合改进的线程库。目前最为人看好的有两个项目,一个是RedHat公司牵头研发的NPTL(Native Posix Thread Library),另一个则是IBM投资开发的NGPT(Next Generation Posix Threading),二者都是围绕完全兼容POSIX 1003.1c,同时在核内和核外做工作以而实现多对多线程模型。这两种模型都在一定程度上弥补了LinuxThreads的缺点,且都是重起炉灶全新设计的。 综上所述的结论是在Linux下编程多用多进程编程少用多线程编程。 IBM有个家伙做了个测试,发现切换线程context的时候,windows比linux快一倍多。进出最快的锁(windows2k的 critical section和linux的pthread_mutex),windows比linux的要快五倍左右。当然这并不是说linux不好,而且在经过实际编程之后,综合来看我觉得linux更适合做high performance server,不过在多线程这个具体的领域内,linux还是稍逊windows一点。这应该是情有可原的,毕竟unix家族都是从多进程过来的,而 windows从头就是多线程的。 如果是UNIX/linux环境,采用多线程没必要。 多线程比多进程性能高?误导! 应该说,多线程比多进程成本低,但性能更低。 在UNIX环境,多进程调度开销比多线程调度开销,没有显著区别,就是说,UNIX进程调度效率是很高的。内存消耗方面,二者只差全局数据区,现在内存都很便宜,服务器内存动辄若干G,根本不是问题。 多进程是立体交通系统,虽然造价高,上坡下坡多耗点油,但是不堵车。 多线程是平面交通系统,造价低,但红绿灯太多,老堵车。 我们现在都开跑车,油(主频)有的是,不怕上坡下坡,就怕堵车。 高性能交易服务器中间件,如TUXEDO,都是主张多进程的。实际测试表明,TUXEDO性能和并发效率是非常高的。TUXEDO是贝尔实验室的,与UNIX同宗,应该是对UNIX理解最为深刻的,他们的意见应该具有很大的参考意义 1. 散沙 2010年7月10日08:43 回复 | 引用 | #1 文章很有深度,我们把握一个尺度就可以了,在windows下使用线程,unix下则使用进程就可以了 2. rjoo 2010年9月9日13:49 回复 | 引用 | #2 错的太多了,博主,应该看看新资料了。 现在都2010年了,NPTL早就取代了老的Linux thread。而且通常多线程有性能优势,但是多进程更稳定,并且通常性能瓶颈不在于是进程模型还是线程模型而在于IO。 3. rjoo 2010年9月9日13:56 回复 | 引用 | #3 关于那个critical section和pthread_mutex_t,critical section本质上是一个自旋锁,短期锁当然快,不知道你说的那个IBM的哥们怎么比的,要比也该是和pthread_spinlock_t比。 4. admin 2010年9月9日17:28 回复 | 引用 | #4 rjoo挺热心的,呵呵,这篇文章不是我写的,但有几个地方我可以解答一下: 1. Linux下没有线程的概念,pthread线程实质是通过轻量级进程实现的。你说瓶颈在IO,这一点我很赞同你的意见,作者如果能再写个IO操作的文章来的话就会更好了。 2. mutex和critical section的确是不能比的。一个涉及到内核,一个没有涉及到内核。呵呵,很佩服你对这些东西的掌握程度,有机会多交流。 ^_^ 5. 定时 2010年9月9日17:40 回复 | 引用 | #5 我们组的最近项目的经验告诉我们能用多进程不用多线程,多线程安全编程难,而且锁会早成效率很低,甚至不如单线程,你说的NPTL我知道,他只是多线程优化了并不能改变多线程安全编程的问题,锁的问题。谢谢指教,实践出真知。 @rjoo 6. 定时 2010年9月9日17:44 回复 | 引用 | #6 你说的锁,我确实不太了解,但是我们leader对它很了解,就是最近的一个项目,锁搞得他很郁闷,他也终于同意我的关键,尽可能不用多线程。 @rjoo 7. rjoo 2010年9月29日13:41 回复 | 引用 | #7 @admin Linux下没有线程的概念,pthread线程实质是通过轻量级进程实现的—这是2.4内核以前的情况(实际上是2.0时引入的,那可实在是太久了),2.4内核引入NGPL,2.6内核线程支持改为NPTL。NPTL实现的是1:1的线程模型(有资料说Win也是这种实现,虽然不太确定,但我觉得可能性很大),而NGPT虽然是理论上最先进的m:n线程模型,但最后实现出来的性能差NPTL一大截,最后被抛弃。看看文中说法就知道要么文章写的很早,要么作者看了一堆十年前的资料。 给个链接: http://www.kegel.com/c10k.html#threads.linuxthreads 8. finalday 2010年10月15日17:26 回复 | 引用 | #8 忍不住跳出来说,作者对并发编程的理解还不行。 比如说锁的问题,说得好像是多线程才需要的东西一样。如果一个应用多进程时完全不用锁,多线程也就多一个轻量级锁——锁一下,各回各家,每个线程用自己的专有存储,之后不就和多进程一样了?这样会被搞得很郁闷?当然不会。所以说明那个应用对于数据共享的需求不是这么简单,既然不是这么简单,多进程程序一样要加锁。多进程的加解锁代价可比多线程大得多了,共享数据和协作也麻烦多了。 多线程编程难不难?难,但这是由于并发本身的难度引起的。“锁”,“安全编程”不管是多线程还是多进程都一样会遇到。 多线程的最大优点是数据共享和协作方便。 多进程的最大优点是挂了一个进程不会影响其他进程,资源也不会泄露,故比较能容忍程序员犯错。 至于两者裸奔比性能,真的没啥意义。

SW_孙维

开发技术专家
知名科技公司工程师,开发技术领域拥有丰富的工作经验和专业知识。曾负责设计和开发多个复杂的软件系统,涉及到大规模数据处理、分布式系统和高性能计算等方面。
专栏简介
专栏《Python多线程与多进程编程》深入探讨了Python中并发和并行编程的关键概念及实际应用。从入门指南开始,逐步介绍了如何在Python中创建、启动线程以及线程同步与互斥锁的应用。专栏还详细介绍了实现线程间通信的方法,包括Python的Queue模块和线程池。同时,也涵盖了多进程编程的基础概念、进程间通信技术以及进程池Executor的使用。此外,还涉及了性能优化技巧、GIL机制解析以及并发编程模式与最佳实践。最后,专栏还探讨了如何在Web开发中应用多线程与多进程,并介绍了Python中的异步编程、并行计算与分布式计算等高级主题。适合对Python并发与并行编程感兴趣的读者阅读,帮助他们更好地理解和应用Python多线程与多进程技术。
最低0.47元/天 解锁专栏
买1年送3个月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
C知道 免费提问 ( 生成式Al产品 )

最新推荐

时间数据统一:R语言lubridate包在格式化中的应用

![时间数据统一:R语言lubridate包在格式化中的应用](https://img-blog.csdnimg.cn/img_convert/c6e1fe895b7d3b19c900bf1e8d1e3db0.png) # 1. 时间数据处理的挑战与需求 在数据分析、数据挖掘、以及商业智能领域,时间数据处理是一个常见而复杂的任务。时间数据通常包含日期、时间、时区等多个维度,这使得准确、高效地处理时间数据显得尤为重要。当前,时间数据处理面临的主要挑战包括但不限于:不同时间格式的解析、时区的准确转换、时间序列的计算、以及时间数据的准确可视化展示。 为应对这些挑战,数据处理工作需要满足以下需求:

dplyr包函数详解:R语言数据操作的利器与高级技术

![dplyr包函数详解:R语言数据操作的利器与高级技术](https://www.marsja.se/wp-content/uploads/2023/10/r_rename_column_dplyr_base.webp) # 1. dplyr包概述 在现代数据分析中,R语言的`dplyr`包已经成为处理和操作表格数据的首选工具。`dplyr`提供了简单而强大的语义化函数,这些函数不仅易于学习,而且执行速度快,非常适合于复杂的数据操作。通过`dplyr`,我们能够高效地执行筛选、排序、汇总、分组和变量变换等任务,使得数据分析流程变得更为清晰和高效。 在本章中,我们将概述`dplyr`包的基

【R语言数据包mlr的深度学习入门】:构建神经网络模型的创新途径

![【R语言数据包mlr的深度学习入门】:构建神经网络模型的创新途径](https://media.geeksforgeeks.org/wp-content/uploads/20220603131009/Group42.jpg) # 1. R语言和mlr包的简介 ## 简述R语言 R语言是一种用于统计分析和图形表示的编程语言,广泛应用于数据分析、机器学习、数据挖掘等领域。由于其灵活性和强大的社区支持,R已经成为数据科学家和统计学家不可或缺的工具之一。 ## mlr包的引入 mlr是R语言中的一个高性能的机器学习包,它提供了一个统一的接口来使用各种机器学习算法。这极大地简化了模型的选择、训练

【plyr包自定义分组】:创建与应用的秘密武器

![【plyr包自定义分组】:创建与应用的秘密武器](https://statisticsglobe.com/wp-content/uploads/2021/08/round_any-Function-R-Programming-Language-TN-1024x576.png) # 1. plyr包概述与分组基础知识 R语言中的plyr包是一个功能强大的数据处理工具,它为用户提供了一组统一的函数来处理列表、数组、数据框等多种数据结构。在本章中,我们将简要介绍plyr包的基本概念,并探讨分组数据处理的基础知识,为后续深入学习自定义分组功能打下坚实的基础。 ## 1.1 plyr包的分组功能

【R语言caret包多分类处理】:One-vs-Rest与One-vs-One策略的实施指南

![【R语言caret包多分类处理】:One-vs-Rest与One-vs-One策略的实施指南](https://media.geeksforgeeks.org/wp-content/uploads/20200702103829/classification1.png) # 1. R语言与caret包基础概述 R语言作为统计编程领域的重要工具,拥有强大的数据处理和可视化能力,特别适合于数据分析和机器学习任务。本章节首先介绍R语言的基本语法和特点,重点强调其在统计建模和数据挖掘方面的能力。 ## 1.1 R语言简介 R语言是一种解释型、交互式的高级统计分析语言。它的核心优势在于丰富的统计包

【R语言Capet包集成挑战】:解决数据包兼容性问题与优化集成流程

![【R语言Capet包集成挑战】:解决数据包兼容性问题与优化集成流程](https://www.statworx.com/wp-content/uploads/2019/02/Blog_R-script-in-docker_docker-build-1024x532.png) # 1. R语言Capet包集成概述 随着数据分析需求的日益增长,R语言作为数据分析领域的重要工具,不断地演化和扩展其生态系统。Capet包作为R语言的一个新兴扩展,极大地增强了R在数据处理和分析方面的能力。本章将对Capet包的基本概念、功能特点以及它在R语言集成中的作用进行概述,帮助读者初步理解Capet包及其在

R语言文本挖掘实战:社交媒体数据分析

![R语言文本挖掘实战:社交媒体数据分析](https://opengraph.githubassets.com/9df97bb42bb05bcb9f0527d3ab968e398d1ec2e44bef6f586e37c336a250fe25/tidyverse/stringr) # 1. R语言与文本挖掘简介 在当今信息爆炸的时代,数据成为了企业和社会决策的关键。文本作为数据的一种形式,其背后隐藏的深层含义和模式需要通过文本挖掘技术来挖掘。R语言是一种用于统计分析、图形表示和报告的编程语言和软件环境,它在文本挖掘领域展现出了强大的功能和灵活性。文本挖掘,简而言之,是利用各种计算技术从大量的

【多层关联规则挖掘】:arules包的高级主题与策略指南

![【多层关联规则挖掘】:arules包的高级主题与策略指南](https://djinit-ai.github.io/images/Apriori-Algorithm-6.png) # 1. 多层关联规则挖掘的理论基础 关联规则挖掘是数据挖掘领域中的一项重要技术,它用于发现大量数据项之间有趣的关系或关联性。多层关联规则挖掘,在传统的单层关联规则基础上进行了扩展,允许在不同概念层级上发现关联规则,从而提供了更多维度的信息解释。本章将首先介绍关联规则挖掘的基本概念,包括支持度、置信度、提升度等关键术语,并进一步阐述多层关联规则挖掘的理论基础和其在数据挖掘中的作用。 ## 1.1 关联规则挖掘

机器学习数据准备:R语言DWwR包的应用教程

![机器学习数据准备:R语言DWwR包的应用教程](https://statisticsglobe.com/wp-content/uploads/2021/10/Connect-to-Database-R-Programming-Language-TN-1024x576.png) # 1. 机器学习数据准备概述 在机器学习项目的生命周期中,数据准备阶段的重要性不言而喻。机器学习模型的性能在很大程度上取决于数据的质量与相关性。本章节将从数据准备的基础知识谈起,为读者揭示这一过程中的关键步骤和最佳实践。 ## 1.1 数据准备的重要性 数据准备是机器学习的第一步,也是至关重要的一步。在这一阶

R语言中的概率图模型:使用BayesTree包进行图模型构建(图模型构建入门)

![R语言中的概率图模型:使用BayesTree包进行图模型构建(图模型构建入门)](https://siepsi.com.co/wp-content/uploads/2022/10/t13-1024x576.jpg) # 1. 概率图模型基础与R语言入门 ## 1.1 R语言简介 R语言作为数据分析领域的重要工具,具备丰富的统计分析、图形表示功能。它是一种开源的、以数据操作、分析和展示为强项的编程语言,非常适合进行概率图模型的研究与应用。 ```r # 安装R语言基础包 install.packages("stats") ``` ## 1.2 概率图模型简介 概率图模型(Probabi