Python中的进程池和进程池Executor

发布时间: 2023-12-19 06:19:36 阅读量: 34 订阅数: 33
# 1. 理解进程池和进程池Executor ## 1.1 什么是进程池? 在Python中,进程池是一种用于管理和调度进程的工具。它可以帮助我们实现并行处理任务,提高程序的性能和效率。进程池通过预先创建一定数量的进程,并维护一个任务队列来实现任务的调度和执行。 ## 1.2 进程池Executor的作用和优势 进程池Executor是Python标准库concurrent.futures中的一个类,它对进程池进行了封装和扩展,提供了更加高级和便捷的接口来执行并发任务。进程池Executor可以帮助我们简化并行任务的管理和结果处理,提高代码的可读性和可维护性。 ## 1.3 进程池与线程池的对比 在并发编程中,除了进程池之外,还有一种常见的并发处理方式就是线程池。进程池和线程池都有自己的适用场景和优势,我们将在本章节中进行对比分析,帮助读者更好地理解进程池的特点和使用场景。 # 2. 使用进程池执行并行任务 在多线程编程中,我们经常会遇到需要同时执行多个任务的场景。然而,Python的全局解释器锁(GIL)限制了多线程的并行度,导致多线程在CPU密集型任务中并不能充分利用多核处理器的优势。为了解决这个问题,Python提供了进程池和进程池Executor这两个功能强大的模块,可以帮助我们实现并行任务的高效执行。 #### 2.1 如何创建和使用进程池 在使用进程池之前,首先需要通过`multiprocessing`模块来创建一个进程池对象。进程池的大小决定了可以同时执行的任务数量,通常根据计算机的CPU核心数来确定。下面是创建进程池的示例代码: ```python import multiprocessing # 创建进程池并指定大小为4 pool = multiprocessing.Pool(4) ``` 创建进程池之后,我们可以使用`apply()`或`map()`方法来将任务提交给进程池执行。`apply()`方法适用于只有一个参数的任务,而`map()`方法适用于多个参数的任务。下面是使用进程池执行任务的示例代码: ```python import multiprocessing # 任务函数 def task(n): return n * n if __name__ == '__main__': # 创建进程池并指定大小为4 pool = multiprocessing.Pool(4) # 使用apply()方法提交任务 result = pool.apply(task, args=(5,)) print(result) # 使用map()方法提交任务 numbers = [1, 2, 3, 4, 5] results = pool.map(task, numbers) print(results) # 关闭进程池 pool.close() pool.join() ``` 在上面的示例代码中,我们定义了一个简单的任务函数`task()`,它接受一个参数,并返回其平方值。我们首先使用`apply()`方法提交一个参数为5的任务,并通过`print()`函数输出任务的结果。然后,我们使用`map()`方法提交了一个包含多个参数的任务列表,并通过`print()`函数输出任务的结果列表。 #### 2.2 进程池中的任务调度和管理 进程池不仅可以帮助我们并行执行任务,还可以自动进行任务的调度和管理。进程池会根据任务的提交顺序和优先级来决定任务的执行顺序,同时还可以根据需要动态调整进程的数量。 除了`apply()`和`map()`方法外,进程池还提供了一些其他的方法来管理和控制任务的执行。下面是一些常用的进程池方法示例代码: ```python import multiprocessing import time # 任务函数 def task(n): time.sleep(n) return n if __name__ == '__main__': # 创建进程池并指定大小为4 pool = multiprocessing.Pool(4) # 使用apply_async()方法提交任务 result = pool.apply_async(task, args=(2,)) result.wait() # 等待任务执行完毕 print(result.get()) # 获取任务的结果 # 使用imap_unordered()方法提交任务 numbers = [3, 1, 4, 2, 5] results = pool.imap_unordered(task, numbers) for result in results: print(result) # 使用starmap()方法提交任务 tasks = [(1,), (2,), (3,), (4,), (5,)] results = pool.starmap(task, tasks) print(results) # 关闭进程池 pool.close() pool.join() ``` 在上面的示例代码中,我们首先使用`apply_async()`方法提交了一个参数为2的任务,并使用`wait()`方法等待任务执行完毕。然后,我们使用`get()`方法获取任务的结果并通过`print()`函数输出。 接下来,我们使用`imap_unordered()`方法提交了一个包含多个参数的任务列表,并使用`for`循环遍历获取任务的结果并输出。这里需要注意的是,`imap_unordered()`方法返回的结果顺序可能与任务提交的顺序不完全一致。 最后,我们使用`starmap()`方法提交了一个参数为元组的任务列表,它可以一次性提交多个参数的任务,并返回一个结果列表。我们也通过`print()`函数输出了任务的结果。 #### 2.3 最佳实践:优化并行任务以提高性能 在使用进程池执行并行任务时,有一些最佳实践可以帮助我们优化任务的执行以提高性能。 首先,我们可以通过合理地设置进程池的大小来充分利用计算机的多核处理器,并避免资源浪费。通常,进程池的大小应该与CPU核心数相匹配。 其次,我们可以使用`chunksize`参数来控制任务的分块大小。将任务分块可以提高任务的调度效率,减少进程间的通信开销。适当地调整`chunksize`参数可以使任务的执行更加高效。 最后,我们还可以使用`asyncio`模块结合进程池来实现异步任务的并行执行。`asyncio`是Python的异步编程框架,可以帮助我们高效地处理大量的IO密集型任务。通过将异步任务与进程池相结合,可以提高并行任务的吞吐量和响应性能。 综上所述,使用进程池可以实现并行任务的高效执行。通过合理地使用进程池的方法和技巧,我们可以优化任务的执行,提高程序的性能。在下一章节中,我们将介绍进程池Executor的高级用法。 # 3. 进程池Executor的高级用法 在前面的章节中,我们已经介绍了如何使用进程池来执行并行任务。进程池提供了一种简单且高效的方式来管理和调度多个子进程。本章将进一步讨论进程池Executor的高级用法,包括如何使用Executor执行可调用对象、获取并处理任务的结果以及异步执行任务和处理异常。 #### 3.1 使用Executor执行可调用对象 在Python中,我们经常需要执行一些可调用对象,例如函数或方法。使用进程池Executor,我们可以更方便地执行这些可调用对象,并让它们在多个子进程中并发地运行。 下面是一个简单的示例,展示了如何使用Executor执行一个函数: ```python from concurrent.futures import ProcessPoolExecutor def square(x): return x ** 2 if __name__ == '__main__': with ProcessPoolExecutor() as executor: results = executor.map(square, range(10)) print(list(results)) ``` 在这个示例中,我们定义了一个square函数,它接受一个参数x并返回x的平方。在主程序中,我们使用Executor的map方法来执行square函数,并传入一个范围为0到9的迭代器作为参数。map方法会将迭代器中的每个元素映射到square函数,并返回一个生成器,我们可以将它转换成列表以获取结果。 #### 3.2 获取并处理任务的结果 当我们使用Executor执行任务时,有时候需要获取并处理每个任务的结果。Executor提供了几种方式来实现这个目标。 首先,我们可以使用Executor的submit方法来提交一个任务,并返回一个Future对象。通过Future对象,我们可以异步地获取任务的结果。下面是一个例子: ```python from concurrent.futures import ProcessPoolExecutor def square(x): return x ** 2 if __name__ == '__main__': with ProcessPoolExecutor() as executor: future = executor.submit(square, 5) result = future.result() print(result) ``` 在这个例子中,我们使用Executor的submit方法提交了一个square函数的任务,并传入参数5。submit方法会返回一个Future对象,我们可以通过调用Future的result方法来获取任务的结果。 除了使用submit方法,我们还可以使用Executor的map方法来获取任务的结果。map方法会返回一个生成器,我们可以迭代生成器来获取每个任务的结果。下面是一个示例: ```python from concurrent.futures import ProcessPoolExecutor def square(x): return x ** 2 if __name__ == '__main__': with ProcessPoolExecutor() as executor: results = executor.map(square, range(10)) for result in results: print(result) ``` 在这个例子中,我们使用Executor的map方法执行了一个square函数的任务,并传入一个范围为0到9的迭代器作为参数。我们通过迭代results生成器来获取每个任务的结果,并打印出来。 #### 3.3 异步执行任务和处理异常 在并发编程中,有时候我们需要异步地执行任务,并在任务执行完成后处理异常。进程池Executor提供了一些方法来实现这个目标。 首先,我们可以使用Executor的submit方法来异步地执行任务。通过调用submit方法,我们可以将任务提交给Executor并立即返回一个Future对象。我们可以通过调用Future的result方法来等待任务执行完成并获取任务的结果。下面是一个示例: ```python from concurrent.futures import ProcessPoolExecutor def divide(a, b): return a / b if __name__ == '__main__': with ProcessPoolExecutor() as executor: future = executor.submit(divide, 10, 0) try: result = future.result() except ZeroDivisionError: print("Divide by zero") ``` 在这个例子中,我们定义了一个divide函数,它接受两个参数并返回它们的商。我们使用Executor的submit方法提交了一个divide函数的任务,并传入参数10和0。由于除数为0会引发ZeroDivisionError异常,我们通过try-except语句来捕获异常并打印错误信息。 除了使用submit方法,我们还可以使用Executor的map方法来异步地执行任务。通过调用map方法,我们可以将多个任务提交给Executor并返回一个生成器。我们可以迭代生成器来获取每个任务的结果,并使用try-except语句来处理异常。 在实际开发中,我们经常需要处理大量的任务,并希望能够异步地执行它们。进程池Executor提供了一种简单而强大的方式来处理并发任务,使我们能够轻松地实现并行计算和任务调度。在下一章中,我们将继续讨论进程池的资源管理和性能优化。 # 4. 进程池的资源管理和性能优化 进程池在并行处理任务时,需要合理管理资源并优化性能,本章将深入探讨进程池的资源管理和性能优化策略。 #### 4.1 进程池中的内存管理策略 在并行处理大量任务时,进程池需要合理管理内存资源,避免内存泄露和资源浪费。优秀的内存管理策略能够提升并行任务处理的效率,下面是使用Python `multiprocessing` 模块时,进程池中的内存管理策略示例代码: ```python import multiprocessing def task(num): result = num * num return result if __name__ == '__main__': # 创建进程池 pool = multiprocessing.Pool(processes=4) # 执行并行任务 numbers = [1, 2, 3, 4, 5] results = pool.map(task, numbers) # 关闭进程池 pool.close() pool.join() ``` #### 4.2 进程池的并发控制和资源限制 为了避免系统资源被过度占用,进程池需要合理控制并发数和资源限制。通过设定最大并发数和资源限制,可以有效地保护系统资源,防止进程池对系统造成过大负担。下面是一个使用Python `concurrent.futures` 模块中的 `ProcessPoolExecutor` 进行并发控制和资源限制的示例代码: ```python import concurrent.futures def task(num): result = num * num return result if __name__ == '__main__': # 创建进程池Executor,并设定最大并发数为 4 with concurrent.futures.ProcessPoolExecutor(max_workers=4) as executor: # 提交任务到进程池Executor numbers = [1, 2, 3, 4, 5] results = list(executor.map(task, numbers)) ``` #### 4.3 如何监控和优化进程池的性能 对进程池的性能进行监控和优化是非常重要的,可以通过监控进程池的运行情况、利用性能分析工具、调整任务分配策略等手段来提升进程池的性能。例如,在Python中,可以使用 `psutil` 模块来监控进程池的资源占用情况,通过调整任务分配策略和参数来优化性能。 以上是进程池的资源管理和性能优化的基本方法,合理的资源管理和性能优化能够使进程池发挥最大的作用,提升并行任务处理的效率。 在下一章节中,我们将深入探讨进程池在实际项目中的应用。 # 5. 进程池在实际项目中的应用 进程池在实际项目中有着广泛的应用,特别是在处理大规模数据、加速网络通信和异步任务处理方面发挥着重要作用。 #### 5.1 使用进程池处理大规模数据 在数据处理领域,进程池可以极大地提高数据处理的效率。通过将数据分成若干块,然后利用进程池并行处理这些数据块,可以快速地完成数据加工、转换和分析工作。比如在数据清洗、数据挖掘、机器学习等领域,通过进程池可以快速地完成大规模数据的处理任务。 ```python import multiprocessing # 定义数据处理函数 def process_data(data_chunk): # 对数据块进行处理 pass if __name__ == "__main__": # 将大规模数据分割成多个数据块 data = [...] chunk_size = len(data) // multiprocessing.cpu_count() data_chunks = [data[i:i + chunk_size] for i in range(0, len(data), chunk_size)] # 创建进程池 with multiprocessing.Pool(processes=multiprocessing.cpu_count()) as pool: # 并行处理数据块 processed_results = pool.map(process_data, data_chunks) # 对处理结果进行合并和汇总 final_result = merge_and_summarize(processed_results) ``` #### 5.2 在网络编程中使用进程池加速通信 在网络编程中,进程池可以用于加速网络通信的处理。比如在服务器端处理大量的网络请求时,可以利用进程池并行处理这些请求,从而提高服务器的并发处理能力和响应速度。同时,进程池还可以用于并行地执行网络通信任务,如网络数据的收发、解析和处理等操作。 ```python import multiprocessing import socket # 定义网络通信任务函数 def handle_client(client_socket, client_address): # 处理客户端请求 pass if __name__ == "__main__": # 创建套接字并监听端口 server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM) server_socket.bind(("127.0.0.1", 8888)) server_socket.listen(5) # 创建进程池 with multiprocessing.Pool(processes=multiprocessing.cpu_count()) as pool: while True: # 接受客户端连接 client_socket, client_address = server_socket.accept() # 在进程池中并行处理客户端请求 pool.apply_async(handle_client, args=(client_socket, client_address)) ``` #### 5.3 进程池在Web开发和异步任务处理中的应用 在Web开发和异步任务处理中,进程池也扮演着重要的角色。比如在Web框架中,可以利用进程池并行处理来自客户端的请求,以提高Web服务器的并发处理能力。同时,对于需要异步处理的任务,可以将这些任务提交给进程池进行并行处理,以提高系统的响应速度和并发能力。 ```python from concurrent.futures import ProcessPoolExecutor import asyncio # 定义异步任务 async def async_task(): # 异步任务处理 pass if __name__ == "__main__": loop = asyncio.get_event_loop() executor = ProcessPoolExecutor(max_workers=multiprocessing.cpu_count()) # 在进程池中执行异步任务 result = loop.run_in_executor(executor, async_task) ``` 通过以上例子,我们可以看到进程池在实际项目中的多种应用场景,包括大规模数据处理、网络通信加速和异步任务处理等方面的应用。进程池的高效并行能力为这些应用场景下的任务处理提供了重要的支持。 # 6. 进程池的局限性和注意事项 进程池作为并发编程的重要工具,虽然具有诸多优势,但在实际应用中仍然存在一些局限性和需要注意的事项。本章将深入探讨进程池的局限性以及相应的注意事项,帮助读者更好地理解和使用进程池。 #### 6.1 进程池的适用场景和局限性 进程池在处理CPU密集型任务时效果显著,然而在以下场景下可能存在局限性: - **大规模并行I/O密集型任务:** 对于大量的I/O密集型任务,进程池可能并不是最佳选择,因为I/O操作往往会导致进程阻塞,降低并行效率。 - **大规模数据共享:** 当进程需要共享大规模数据或状态时,由于进程间内存独立,数据共享和同步可能会带来额外的复杂性和开销。 - **资源消耗和启动时间:** 每个进程都需要独立的内存空间和其他系统资源,因此大规模进程池可能带来较大的资源消耗和启动时间。 #### 6.2 进程池中的常见问题和解决方案 在使用进程池时,有一些常见问题需要引起注意,并且需要针对这些问题采取相应的解决方案: - **内存占用和泄露:** 大规模进程池可能会带来内存占用过高和泄露的问题,需要合理控制并发数量和及时释放资源。 - **进程间通信和数据同步:** 进程间通信和数据同步是并行任务中的关键问题,需要选择合适的机制(如队列、共享内存)来进行数据共享和通信。 - **异常处理和进程退出:** 进程池中的任务如果出现异常,需要有相应的处理机制来捕获和处理异常,并合理管理进程的退出和重启。 #### 6.3 最佳实践:如何避免进程池的陷阱 为了避免进程池在实际应用中可能遇到的问题,以下是一些最佳实践建议: - **合理的进程数量控制:** 对于不同的任务和系统,需要合理控制进程池中的进程数量,避免资源浪费和性能下降。 - **异常处理和日志记录:** 在进程池中执行任务时,需要充分考虑异常处理和日志记录,保证任务执行的稳定性和可追溯性。 - **定期监控和优化:** 长期运行的进程池需要定期监控和优化,包括内存占用、任务执行效率、异常情况等方面的调优。 通过以上的深入剖析,读者可以更加全面地了解进程池的局限性和注意事项,为进程池的实际应用提供更加全面的参考和指导。 接下来我们将深入探讨一些进程池的最佳实践,并结合代码示例进行详细说明。
corwn 最低0.47元/天 解锁专栏
买1年送3月
点击查看下一篇
profit 百万级 高质量VIP文章无限畅学
profit 千万级 优质资源任意下载
profit C知道 免费提问 ( 生成式Al产品 )

相关推荐

doc
一个进程池的服务器程序 下面做了非常简单的http服务器,该服务器只能接收Get请求。 流程大概如下: 1,父进程listen,创建pipe(下面所有父子进程之间的通信都用该pipe) 2,父进程预fork n个子进程 3,各个子进程accept(listenfd),即所有子进程竞争accept请求。由于listenfd是在fork之前就有的,所以所有子进程都可以访问到,不需用到“进程间文件描述符传递”问题; 4,子进程每accept到一个请求都告诉父进程,父进程把请求数加1;子进程没完成一个请求,父进程把请求数减1;当父进程发现请求数 >= 子进程数时,父进程创建新的子进程,并把子进程数加1(当然子进程数有个预先上限);当父进程发现子进程数大于请求数加1时,父进程杀死多余的子进程。 总的来说,思想是让子进程accept并处理请求,父进程通过子进程发来的信息控制请求数与子进程数之间的关系。 代码如下: 代码如下: #include <time.h> #include <sys/types.h> #include <sys/socket.h> #include <arpa/inet.h> #include <string.h> #include <stdio.h> #include <stdlib.h> #include <dirent.h> #include <sys/stat.h> #include <signal.h> #include <sys/wait.h> #include #include <errno.h> #include <unistd.h> #include <fcntl.h> #define PRECHILD 5 #define MAXCHILD 50 #define BUFSIZE 4096 #define PIDPATH "pid" #define head503 "HTTP/1.1 503 Service unavailable\r\n" #define head404 "HTTP/1.1 404 Not Found\r\n" #define head200 "HTTP/1.1 200 0K\n\rContent—Type: text/html\n\rContent—Length: " int len503, len404, len200; int fd1[2], fd2[2]; typedef struct { pid_t pid; char status; // 'n' means new request; 'f' means finish the request } REPORT; void answer(int listenfd) { int connfd; char buf[BUFSIZE]; int count; int pid = getpid(); struct sockaddr_in cliaddr; int size = sizeof(cliaddr); char comm; REPORT rep; rep.pid = pid; while (1) { connfd = accept(listenfd, (struct sockaddr *)&cliaddr,(socklen_t *)&size ); //子进程accept请求 rep.status = 'n'; if (write(fd1[1], &rep, sizeof(rep)) < 0) { //通知父进程已经accept了请求 perror("write pipe new failed"); exit(-1); } count = read(connfd, buf, BUFSIZE); char req[10]; char filepath[256]; sscanf(buf, "%s%s", req, filepath + 1); filepath[0] = '.'; if (strcmp("GET", req) != 0) {//503 write(connfd, head503, len503); //goto err_out; close(connfd); exit(-1); } char content[BUFSIZE]; struct stat stbuf; if (lstat(filepath, &stbuf) != 0) { int err = errno; if (err == ENOENT) {//404 write(connfd, head404, len404); } close(connfd); exit(-1); } count = write(connfd, head200, len200); u_int filesize = stbuf.st_size; sprintf(content, "%u\n\r\n\r", filesize); count = write(connfd, content, strlen(content)); FILE *fp = fopen(filepath, "r"); if (fp == NULL) { printf("open file %s failed\n", filepath); close(connfd); exit(-1); } while((count = fread(content, 1, sizeof(content), fp)) > 0) { //printf("%s", content); if (write(connfd, content, count) != count) { printf("write failed\n"); } } fclose(fp); close(connfd); rep.status = 'f'; if (write(fd1[1], &rep, sizeof(rep)) < 0) {//告诉父进程自己处理完了请求 perror("write pipe finish failed"); exit(-1); } if (read(fd2[0], &comm, 1) < 1) {//等待来自父进程的命令 perror("read pipe failed"); exit(-1); } //printf("[%d] reve %c from pa\n", pid, comm); if (comm == 'e') { //收到exit命令 printf("[%d] exit\n", pid); exit(-1); } else if (comm == 'c') { //收到继续accept的命令 printf("[%d] continue\n", pid); } else { printf("[%d] comm : %c illeagle\n", pid, comm); } } } void usage() { printf("Usage: http-serv port\n"); } int write_pid() { int fd; if ((fd = open(PIDPATH, O_WRONLY | O_TRUNC | O_CREAT, S_IWUSR)) < 0){ perror("open pidfile faild"); return -1; } struct flock lock; lock.l_type = F_WRLCK; lock.l_start = 0; lock.l_whence = SEEK_SET; lock.l_len = 0; if (fcntl(fd, F_SETLK, &lock) == -1) { int err = errno; perror("fcntl faild"); if (err == EAGAIN) { printf("Another http-serv process is running now!\n"); } return -1; } return 0; } void daemon_init() { //clear file creation mask; umask(0); //become a session leader if (fork() != 0) exit(-1); if (setsid() < 0) exit(-1); //make sure can be never get the TTY control if (fork() != 0) exit(-1); //may chdir here int i; for (i = 0; i < 1024; i++) close(i); /* * Attach file descriptors 0, 1, and 2 to /dev/null. */ int fd0, fd1, fd2; fd0 = open("/dev/null", O_RDWR); fd1 = dup(0); fd2 = dup(0); if (fd0 != 0 || fd1 != 1 || fd2 != 2) { printf("init failed\n"); exit(-1); } } int main(int argc, char **argv) { int listenfd; struct sockaddr_in servaddr; pid_t pid; if (argc != 2) { usage(); return -1; } signal(SIGCHLD, SIG_IGN); len200 = strlen(head200); len404 = strlen(head404); len503 = strlen(head503); daemon_init(); //转为后台程序,如需打印调试,把这行注释掉 if (write_pid() < 0) //避免同时有多个该程序在运行 return -1; if (pipe(fd1) < 0) { perror("pipe failed"); exit(-1); } if (s_pipe(fd2) < 0) { perror("pipe failed"); exit(-1); } int port = atoi(argv[1]); //initialize servaddr and listenfd... bzero(&servaddr, sizeof(servaddr)); servaddr.sin_family = AF_INET; servaddr.sin_addr.s_addr = htonl(INADDR_ANY); servaddr.sin_port = htons(port); listenfd = socket(AF_INET, SOCK_STREAM, 0); bind(listenfd, (struct sockaddr *) &servaddr, sizeof(servaddr)); listen(listenfd, 1000); int i; for (i = 0; i < PRECHILD ; i++) { //父进程预fork 子进程 if ((pid = fork()) < 0) { perror("fork faild"); exit(3); } else if (pid == 0) { answer(listenfd); } else { printf("have create child %d\n", pid); } } char e = 'e'; char c = 'c'; int req_num = 0; int child_num = PRECHILD; REPORT rep; while (1) { //printf("req_num = %d, child_num = %d\n", req_num, child_num); if (read(fd1[0], &rep, sizeof(rep)) < sizeof(rep)) {//等待子进程发来消息 perror("parent read pipe failed"); exit(-1); } //printf("parent: receive from %d\n", pid); if (rep.status == 'n') {//子进程刚accept了新的请求 req_num ++; printf("parent: %d have receive new request\n", rep.pid); if (req_num >= child_num && child_num <= MAXCHILD) { //请求数过多,创建更多子进程 if ((pid = fork()) < 0) { perror("fork faild"); exit(3); } else if (pid == 0) { answer(listenfd); } else { printf("have create child %d\n", pid); child_num ++; } } } else if (rep.status == 'f') {//子进程刚处理完了一个请求 req_num --; //printf("parent: %d have finish a request\n", rep.pid); if (child_num > (req_num + 1) && child_num > PRECHILD) {//子进程数过多,删除多余的子进程 if (write(fd2[1], &e, sizeof(e)) < sizeof(e)) { perror("pa write pipe failed"); exit(-2); } //printf("tell child exit\n"); child_num --; } else { if (write(fd2[1], &c, sizeof(c)) < sizeof(c)) {//让子进程继续等待accept perror("pa write pipe failed"); exit(-2); } //printf("tell child continue\n"); } } } return 0; } 利用fork()创建多个子进程 11:09 pm on Oct 23rd 2010 greenMay 之间我学习了创建一个子进程,也大致理解了子进程与父进程的关系。今天无意间遇到一个创建多个子进程的问题,结果还发现了点小bug,现在写下来和大家分享。 我需要实现的目标如下:编写一段源程序,使系统调用fork()创建两个子进程,当此程序运行时,在系统中有一个父进程和两个子进程活动。让每一个进程在屏幕上显示一个字符:父进程显示字符“a”;子进程分别显示字符“b”和字符“c”。 一开始我的主要代码如下: view source print? 01 int main() 02 { 03 pid_t child1; 04 pid_t child2; 05 child1 = fork(); 06 child2 = fork(); 07 if(child1 == 0) 08 { 09 printf("Child1:a\n"); 10 return 0; 11 } 12 if(child2 == 0) 13 { 14 printf("Child2:b\n"); 15 return 0; 16 } 17 else 18 { 19 waitpid(child1,NULL,0); 20 waitpid(child2,NULL,0); 21 printf("Parent:c\n"); 22 } 23 return 0; 24 } 奇怪的是,我得到的是这样一个结果: Child1:a Child1:a Child2:b Parent:c 竟然有两个Child1。可是我的代码里明明只是让Chidl1打印一次啊。搜索到一篇好的博文。文章仔细分析了和我几乎相同的情况。事实上,是我的粗心和对fork()的理解不深刻导致了上述的奇怪问题。 我们知道,fork()之后,我们还是首先执行的是父进程,也就是如下代码段: view source print? 1 waitpid(child1,NULL,0); 2 waitpid(child2,NULL,0); 3 printf("Parent:c\n"); 然后waitpid(child1,NULL,0),进入child1的执行。child1将要执行的是如下的的代码段: view source print? 1 child2 = fork(); 2 if(child1 == 0) 3 { 4 printf("Child1:a\n"); 5 return 0; 6 } 注意,第一行的那个child2 = fork()!这就意味着对于child1来说,它自己又要创建一个子进程,这时候他成为了父亲。这时候,它有一个儿子child2,但是这个child2不同与我们刚才定义的那个child2,这个child2其实是parent的孙子。之所以又打印了一边Child1。如果加上如下代码就明白了: view source print? 01 child2 = fork(); 02 if(child1 == 0) 03 { 04 if(child2 == 0) 05 { 06 printf("GrandChild!\n"); 07 } 08 printf("Child1:a\n"); 09 return 0; 10 } 这时候将出现: Child1:a GrandChild! Child1:a Child2:b Parent:c 恩,这就很明白了!我无意间多调用了一次child2=fork(); 所以,如果要达到我最初的目的,需要改变child2的fork()的位置: view source print? 01 #include <stdio.h> 02 #include <unistd.h> 03 #include <sys/types.h> 04 #include <sys/wait.h> 05 int main() 06 { 07 pid_t child1; 08 pid_t child2; 09 child1 = fork(); 10 child2 = fork(); 11 if(child1 == 0) 12 { 13 printf("Child1:a\n"); 14 return 0; 15 } 16 if(child2 == 0) 17 { 18 printf("Child2:b\n"); 19 return 0; 20 } 21 else 22 { 23 waitpid(child1,NULL,0); 24 waitpid(child2,NULL,0); 25 printf("Parent:c\n"); 26 } 27 return 0; 28 } 我参照的那个博文最后给出了一个更为普遍的fork()创建多进程的程序框架: view source print? 01 pid_t create_child() 02 { 03 pid_t p = fork(); 04 if( p == 0 ) 05 { 06 printf("in child %d\n", getpid()); 07 //do something 08 return 0; 09 } 10 return p; 11 } 12 int main(void) 13 { 14 pid_t p1 = create_child(); 15 pid_t p2 = create_child(); 16 17 int st1, st2; 18 waitpid( p1, &st1, 0); 19 waitpid( p2, &st2, 0); 20 printf("in parent, pid = %d\n", getpid()); 21 printf("in parent, child 1 exited with %d\n", st1); 22 printf("in parent, child 2 exited with %d\n", st2); 23 return 0; 24 } 注意到,期中的create_child()函数最后有一个return p。这个return p将pid返回给了父进程,其实也是将子进程对于CPU的控制权交还给了父进程,这样就避免了多个子进程在创建之时互相影响了。 可以说,今天的这个问题真是一个有趣的事情。代码有的时候就是这么奇怪~ 最后,向我引用的那篇文章致敬! Linux内核对多进程和多线程的支持方式: 线程机制支持并发程序设计技术,在多处理器上能真正保证并行处理。而在linux实现线程很特别,linux把所有的线程都当作进程实现。linux下线程看起来就像普通进程(只是该进程和其他进程共享资源,如地址空间)。上述机制与Microsoft windows或是Sun Solaris实现差异很大。 Linux的线程实现是在核外进行的,核内提供的是创建进程的接口do_fork()。内核提供了两个系统调用__clone()和fork(),最终都用不同的参数调用do_fork()核内API。 do_fork() 提供了很多参数,包括CLONE_VM(共享内存空间)、CLONE_FS(共享文件系统信息)、CLONE_FILES(共享文件描述符表)、CLONE_SIGHAND(共享信号句柄表)和CLONE_PID(共享进程ID,仅对核内进程,即0号进程有效)。当使用fork系统调用产生多进程时,内核调用do_fork()不使用任何共享属性,进程拥有独立的运行环境。当使用pthread_create()来创建线程时,则最终设置了所有这些属性来调用__clone(),而这些参数又全部传给核内的do_fork(),从而创建的”进程”拥有共享的运行环境,只有栈是独立的,由 __clone()传入。 即:Linux下不管是多线程编程还是多进程编程,最终都是用do_fork实现的多进程编程,只是进程创建时的参数不同,从而导致有不同的共享环境。Linux线程在核内是以轻量级进程的形式存在的,拥有独立的进程表项,而所有的创建、同步、删除等操作都在核外pthread库中进行。pthread 库使用一个管理线程(__pthread_manager() ,每个进程独立且唯一)来管理线程的创建和终止,为线程分配线程ID,发送线程相关的信号,而主线程pthread_create()) 的调用者则通过管道将请求信息传给管理线程。 很多朋友都说使用多线程的好处是资源占用少,其隐含之意就是说进程占用资源比线程多,对吧?但实际上Linux下多进程是否就真的点用很多资源呢?暂且不说进程是否比线程占用资源多,就进程占用资源的多少情况而言,Linux确实是做得相当节省的。产生一个多进程时肯定是要产生的一点内存是要复制进程表项,即一个task_struct结构,但这个结构本身做得相当小巧。其它对于一个进程来说必须有的数据段、代码段、堆栈段是不是全盘复制呢?对于多进程来说,代码段是肯定不用复制的,因为父进程和各子进程的代码段是相同的,数据段和堆栈段呢?也不一定,因为在Linux里广泛使用的一个技术叫copy-on-write,即写时拷贝。copy-on-write意味着什么呢?意味着资源节省,假设有一个变量x在父进程里存在,当这个父进程创建一个子进程或多个子进程时这个变量x是否复制到了子进程的内存空间呢?不会的,子进程和父进程使用同一个内存空间的变量,但当子进程或父进程要改变变量x的值时就会复制该变量,从而导致父子进程里的变量值不同。父子进程变量是互不影响的,由于父子进程地址空间是完全隔开的,变量的地址可以是完全相同的。 Linux的”线程”和”进程”实际上处于一个调度层次,共享一个进程标识符空间,这种限制使得不可能在Linux上实现完全意义上的POSIX线程机制,因此众多的Linux线程库实现尝试都只能尽可能实现POSIX的绝大部分语义,并在功能上尽可能逼近。Linux进程的创建是非常迅速的。内核设计与实现一书中甚至指出Linux创建进程的速度和其他针对线程优化的操作系统(Windows,Solaris)创建线程的速度相比,测试结果非常的好,也就是说创建速度很快。由于异步信号是内核以进程为单位分发的,而LinuxThreads的每个线程对内核来说都是一个进程,且没有实现”线程组”,因此,某些语义不符合POSIX标准,比如没有实现向进程中所有线程发送信号,README对此作了说明。LinuxThreads中的线程同步很大程度上是建立在信号基础上的,这种通过内核复杂的信号处理机制的同步方式,效率一直是个问题。LinuxThreads 的问题,特别是兼容性上的问题,严重阻碍了Linux上的跨平台应用(如Apache)采用多线程设计,从而使得Linux上的线程应用一直保持在比较低的水平。在Linux社区中,已经有很多人在为改进线程性能而努力,其中既包括用户级线程库,也包括核心级和用户级配合改进的线程库。目前最为人看好的有两个项目,一个是RedHat公司牵头研发的NPTL(Native Posix Thread Library),另一个则是IBM投资开发的NGPT(Next Generation Posix Threading),二者都是围绕完全兼容POSIX 1003.1c,同时在核内和核外做工作以而实现多对多线程模型。这两种模型都在一定程度上弥补了LinuxThreads的缺点,且都是重起炉灶全新设计的。 综上所述的结论是在Linux下编程多用多进程编程少用多线程编程。 IBM有个家伙做了个测试,发现切换线程context的时候,windows比linux快一倍多。进出最快的锁(windows2k的 critical section和linux的pthread_mutex),windows比linux的要快五倍左右。当然这并不是说linux不好,而且在经过实际编程之后,综合来看我觉得linux更适合做high performance server,不过在多线程这个具体的领域内,linux还是稍逊windows一点。这应该是情有可原的,毕竟unix家族都是从多进程过来的,而 windows从头就是多线程的。 如果是UNIX/linux环境,采用多线程没必要。 多线程比多进程性能高?误导! 应该说,多线程比多进程成本低,但性能更低。 在UNIX环境,多进程调度开销比多线程调度开销,没有显著区别,就是说,UNIX进程调度效率是很高的。内存消耗方面,二者只差全局数据区,现在内存都很便宜,服务器内存动辄若干G,根本不是问题。 多进程是立体交通系统,虽然造价高,上坡下坡多耗点油,但是不堵车。 多线程是平面交通系统,造价低,但红绿灯太多,老堵车。 我们现在都开跑车,油(主频)有的是,不怕上坡下坡,就怕堵车。 高性能交易服务器中间件,如TUXEDO,都是主张多进程的。实际测试表明,TUXEDO性能和并发效率是非常高的。TUXEDO是贝尔实验室的,与UNIX同宗,应该是对UNIX理解最为深刻的,他们的意见应该具有很大的参考意义 1. 散沙 2010年7月10日08:43 回复 | 引用 | #1 文章很有深度,我们把握一个尺度就可以了,在windows下使用线程,unix下则使用进程就可以了 2. rjoo 2010年9月9日13:49 回复 | 引用 | #2 错的太多了,博主,应该看看新资料了。 现在都2010年了,NPTL早就取代了老的Linux thread。而且通常多线程有性能优势,但是多进程更稳定,并且通常性能瓶颈不在于是进程模型还是线程模型而在于IO。 3. rjoo 2010年9月9日13:56 回复 | 引用 | #3 关于那个critical section和pthread_mutex_t,critical section本质上是一个自旋锁,短期锁当然快,不知道你说的那个IBM的哥们怎么比的,要比也该是和pthread_spinlock_t比。 4. admin 2010年9月9日17:28 回复 | 引用 | #4 rjoo挺热心的,呵呵,这篇文章不是我写的,但有几个地方我可以解答一下: 1. Linux下没有线程的概念,pthread线程实质是通过轻量级进程实现的。你说瓶颈在IO,这一点我很赞同你的意见,作者如果能再写个IO操作的文章来的话就会更好了。 2. mutex和critical section的确是不能比的。一个涉及到内核,一个没有涉及到内核。呵呵,很佩服你对这些东西的掌握程度,有机会多交流。 ^_^ 5. 定时 2010年9月9日17:40 回复 | 引用 | #5 我们组的最近项目的经验告诉我们能用多进程不用多线程,多线程安全编程难,而且锁会早成效率很低,甚至不如单线程,你说的NPTL我知道,他只是多线程优化了并不能改变多线程安全编程的问题,锁的问题。谢谢指教,实践出真知。 @rjoo 6. 定时 2010年9月9日17:44 回复 | 引用 | #6 你说的锁,我确实不太了解,但是我们leader对它很了解,就是最近的一个项目,锁搞得他很郁闷,他也终于同意我的关键,尽可能不用多线程。 @rjoo 7. rjoo 2010年9月29日13:41 回复 | 引用 | #7 @admin Linux下没有线程的概念,pthread线程实质是通过轻量级进程实现的—这是2.4内核以前的情况(实际上是2.0时引入的,那可实在是太久了),2.4内核引入NGPL,2.6内核线程支持改为NPTL。NPTL实现的是1:1的线程模型(有资料说Win也是这种实现,虽然不太确定,但我觉得可能性很大),而NGPT虽然是理论上最先进的m:n线程模型,但最后实现出来的性能差NPTL一大截,最后被抛弃。看看文中说法就知道要么文章写的很早,要么作者看了一堆十年前的资料。 给个链接: http://www.kegel.com/c10k.html#threads.linuxthreads 8. finalday 2010年10月15日17:26 回复 | 引用 | #8 忍不住跳出来说,作者对并发编程的理解还不行。 比如说锁的问题,说得好像是多线程才需要的东西一样。如果一个应用多进程时完全不用锁,多线程也就多一个轻量级锁——锁一下,各回各家,每个线程用自己的专有存储,之后不就和多进程一样了?这样会被搞得很郁闷?当然不会。所以说明那个应用对于数据共享的需求不是这么简单,既然不是这么简单,多进程程序一样要加锁。多进程的加解锁代价可比多线程大得多了,共享数据和协作也麻烦多了。 多线程编程难不难?难,但这是由于并发本身的难度引起的。“锁”,“安全编程”不管是多线程还是多进程都一样会遇到。 多线程的最大优点是数据共享和协作方便。 多进程的最大优点是挂了一个进程不会影响其他进程,资源也不会泄露,故比较能容忍程序员犯错。 至于两者裸奔比性能,真的没啥意义。

SW_孙维

开发技术专家
知名科技公司工程师,开发技术领域拥有丰富的工作经验和专业知识。曾负责设计和开发多个复杂的软件系统,涉及到大规模数据处理、分布式系统和高性能计算等方面。
专栏简介
专栏《Python多线程与多进程编程》深入探讨了Python中并发和并行编程的关键概念及实际应用。从入门指南开始,逐步介绍了如何在Python中创建、启动线程以及线程同步与互斥锁的应用。专栏还详细介绍了实现线程间通信的方法,包括Python的Queue模块和线程池。同时,也涵盖了多进程编程的基础概念、进程间通信技术以及进程池Executor的使用。此外,还涉及了性能优化技巧、GIL机制解析以及并发编程模式与最佳实践。最后,专栏还探讨了如何在Web开发中应用多线程与多进程,并介绍了Python中的异步编程、并行计算与分布式计算等高级主题。适合对Python并发与并行编程感兴趣的读者阅读,帮助他们更好地理解和应用Python多线程与多进程技术。
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
C知道 免费提问 ( 生成式Al产品 )

最新推荐

【特征工程稀缺技巧】:标签平滑与标签编码的比较及选择指南

# 1. 特征工程简介 ## 1.1 特征工程的基本概念 特征工程是机器学习中一个核心的步骤,它涉及从原始数据中选取、构造或转换出有助于模型学习的特征。优秀的特征工程能够显著提升模型性能,降低过拟合风险,并有助于在有限的数据集上提炼出有意义的信号。 ## 1.2 特征工程的重要性 在数据驱动的机器学习项目中,特征工程的重要性仅次于数据收集。数据预处理、特征选择、特征转换等环节都直接影响模型训练的效率和效果。特征工程通过提高特征与目标变量的关联性来提升模型的预测准确性。 ## 1.3 特征工程的工作流程 特征工程通常包括以下步骤: - 数据探索与分析,理解数据的分布和特征间的关系。 - 特

【特征选择工具箱】:R语言中的特征选择库全面解析

![【特征选择工具箱】:R语言中的特征选择库全面解析](https://media.springernature.com/lw1200/springer-static/image/art%3A10.1186%2Fs12859-019-2754-0/MediaObjects/12859_2019_2754_Fig1_HTML.png) # 1. 特征选择在机器学习中的重要性 在机器学习和数据分析的实践中,数据集往往包含大量的特征,而这些特征对于最终模型的性能有着直接的影响。特征选择就是从原始特征中挑选出最有用的特征,以提升模型的预测能力和可解释性,同时减少计算资源的消耗。特征选择不仅能够帮助我

p值在机器学习中的角色:理论与实践的结合

![p值在机器学习中的角色:理论与实践的结合](https://itb.biologie.hu-berlin.de/~bharath/post/2019-09-13-should-p-values-after-model-selection-be-multiple-testing-corrected_files/figure-html/corrected pvalues-1.png) # 1. p值在统计假设检验中的作用 ## 1.1 统计假设检验简介 统计假设检验是数据分析中的核心概念之一,旨在通过观察数据来评估关于总体参数的假设是否成立。在假设检验中,p值扮演着决定性的角色。p值是指在原

【时间序列分析】:如何在金融数据中提取关键特征以提升预测准确性

![【时间序列分析】:如何在金融数据中提取关键特征以提升预测准确性](https://img-blog.csdnimg.cn/20190110103854677.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zNjY4ODUxOQ==,size_16,color_FFFFFF,t_70) # 1. 时间序列分析基础 在数据分析和金融预测中,时间序列分析是一种关键的工具。时间序列是按时间顺序排列的数据点,可以反映出某

【复杂数据的置信区间工具】:计算与解读的实用技巧

# 1. 置信区间的概念和意义 置信区间是统计学中一个核心概念,它代表着在一定置信水平下,参数可能存在的区间范围。它是估计总体参数的一种方式,通过样本来推断总体,从而允许在统计推断中存在一定的不确定性。理解置信区间的概念和意义,可以帮助我们更好地进行数据解释、预测和决策,从而在科研、市场调研、实验分析等多个领域发挥作用。在本章中,我们将深入探讨置信区间的定义、其在现实世界中的重要性以及如何合理地解释置信区间。我们将逐步揭开这个统计学概念的神秘面纱,为后续章节中具体计算方法和实际应用打下坚实的理论基础。 # 2. 置信区间的计算方法 ## 2.1 置信区间的理论基础 ### 2.1.1

自然语言处理中的独热编码:应用技巧与优化方法

![自然语言处理中的独热编码:应用技巧与优化方法](https://img-blog.csdnimg.cn/5fcf34f3ca4b4a1a8d2b3219dbb16916.png) # 1. 自然语言处理与独热编码概述 自然语言处理(NLP)是计算机科学与人工智能领域中的一个关键分支,它让计算机能够理解、解释和操作人类语言。为了将自然语言数据有效转换为机器可处理的形式,独热编码(One-Hot Encoding)成为一种广泛应用的技术。 ## 1.1 NLP中的数据表示 在NLP中,数据通常是以文本形式出现的。为了将这些文本数据转换为适合机器学习模型的格式,我们需要将单词、短语或句子等元

训练集大小对性能的影响:模型评估的10大策略

![训练集大小对性能的影响:模型评估的10大策略](https://community.alteryx.com/t5/image/serverpage/image-id/71553i43D85DE352069CB9?v=v2) # 1. 模型评估的基础知识 在机器学习与数据科学领域中,模型评估是验证和比较机器学习算法表现的核心环节。本章节将从基础层面介绍模型评估的基本概念和重要性。我们将探讨为什么需要评估模型、评估模型的目的以及如何选择合适的评估指标。 ## 1.1 评估的重要性 模型评估是为了确定模型对未知数据的预测准确性与可靠性。一个训练好的模型,只有在独立的数据集上表现良好,才能够

大样本理论在假设检验中的应用:中心极限定理的力量与实践

![大样本理论在假设检验中的应用:中心极限定理的力量与实践](https://images.saymedia-content.com/.image/t_share/MTc0NjQ2Mjc1Mjg5OTE2Nzk0/what-is-percentile-rank-how-is-percentile-different-from-percentage.jpg) # 1. 中心极限定理的理论基础 ## 1.1 概率论的开篇 概率论是数学的一个分支,它研究随机事件及其发生的可能性。中心极限定理是概率论中最重要的定理之一,它描述了在一定条件下,大量独立随机变量之和(或平均值)的分布趋向于正态分布的性

【交互特征的影响】:分类问题中的深入探讨,如何正确应用交互特征

![【交互特征的影响】:分类问题中的深入探讨,如何正确应用交互特征](https://img-blog.csdnimg.cn/img_convert/21b6bb90fa40d2020de35150fc359908.png) # 1. 交互特征在分类问题中的重要性 在当今的机器学习领域,分类问题一直占据着核心地位。理解并有效利用数据中的交互特征对于提高分类模型的性能至关重要。本章将介绍交互特征在分类问题中的基础重要性,以及为什么它们在现代数据科学中变得越来越不可或缺。 ## 1.1 交互特征在模型性能中的作用 交互特征能够捕捉到数据中的非线性关系,这对于模型理解和预测复杂模式至关重要。例如

【PCA算法优化】:减少计算复杂度,提升处理速度的关键技术

![【PCA算法优化】:减少计算复杂度,提升处理速度的关键技术](https://user-images.githubusercontent.com/25688193/30474295-2bcd4b90-9a3e-11e7-852a-2e9ffab3c1cc.png) # 1. PCA算法简介及原理 ## 1.1 PCA算法定义 主成分分析(PCA)是一种数学技术,它使用正交变换来将一组可能相关的变量转换成一组线性不相关的变量,这些新变量被称为主成分。 ## 1.2 应用场景概述 PCA广泛应用于图像处理、降维、模式识别和数据压缩等领域。它通过减少数据的维度,帮助去除冗余信息,同时尽可能保