并行编程实践：pthread、OpenMP与CUDA向量加法优化

需积分: 0 111 浏览量更新于2024-06-30 收藏 2.85MB DOCX 举报

本篇实验报告是关于并行编程原理与实践的一次实践作业，针对ACM1501专业的学生朱锦辉，学号U201514582，在指导教师金海的指导下进行。实验的主要目的是让学生熟悉Linux下的并行编程环境，包括pthread、OpenMP和OpenMPI等工具的使用。实验内容分为三个部分： 1. **使用pthread做向量加法**： - 通过定义全局变量vector_a[], vector_b[], 和 vector_result[]来存储向量数据。 - 线程函数plus_pthread负责执行vector_result[i]=vector_a[i]+vector_b[i]的操作，采用的是简单任务划分，即每个线程处理循环中的一个元素，利用线程并发性提升计算效率。 2. **使用OpenMP做向量加法**： - 在OpenMP环境下，通过特殊的编译引导语句，将for循环分解为多个并行子任务，自动管理线程调度，简化编程工作。 - 要求学生修改源代码以适应OpenMP的并行处理模型。 3. **使用OpenMPI做向量加法**： - 利用MPI_Scatter函数进行进程间的通信，将向量加法视为一对多通信问题，发送者进程将向量分割后发送给接收者，每个进程根据自身分配的任务进行计算。 - 在mpirun时，需要指定-np参数等于向量长度n，确保所有进程协同工作。 4. **使用CUDA做向量加法**： - 进一步深入硬件并行，CUDA利用GPU的并行计算能力，通过CUDA库的Kernel函数实现向量加法。 - 定义了host端的四个向量变量，并配置了线程块（block）和网格（grid）结构，每个线程负责一次向量加法，以最大化并行度。通过这次实验，学生能够理解并实际操作不同并行编程工具，掌握如何在多线程和分布式计算环境中提高代码的性能，同时了解并行编程中的任务划分、数据通信和硬件加速等核心概念。

图 1-3 pthread 方法示例

由于将向量维度 n 设置为 10，图中可以看到一共创建了 10 个进程，每个线

程分别做了一次加法运算，由于线程并行，所以打印的结果随机，对比计算结

果可知计算结果正确。

1.3.2 OpenMP 方法

编译：gcc Lab1_2.c -o Lab1_2 –openmp

运行：./Lab1_2

由于该实验是通过 OpenMP 特殊的编译引导语句自动将 for 循环分解为多个

线程并行的，测试结果不是十分直观，如图 1-3 所示。因此我们把向量长度 n

增加为 100000，计算结果如图 1-4 所示。虽然已经增大了 n 的级数，但是多次

运行的结果可以发现二者执行速度差别很小，若果仅仅只做一次简单的 for 循

环，OpenMP 的加速情况并不是特别明显。

图 1-4 OpenMP 计算向量加法样例，n=10

图 1-5 OpenMP 计算向量加法样例，n=

剩余35页未读，继续阅读

老许的花开

粉丝: 33
资源: 328

并行编程实践：pthread、OpenMP与CUDA向量加法优化

并行计算项目

并发编程1

并行编程

ACM.zip_ACM习题_ACM编程_ACM编程练习_编程 习题集

ACM.rar_ACM编程_acm solutions_浙大acm

acm.rar_ACM 语音_ACM控件_acm delphi_delphi6_录音 播放

上海交大ACM模板_上海交大ACM模板_ACM模板_

ACM1601_U201614756_江易星1

ACM1401_U201414713_李昊洋1

PKU+ACM.rar_ACM_PKU_acm pku_acm 北大_site:www.pudn.com

最新资源

ACM.zip_ACM习题_ACM编程_ACM编程练习_编程习题集

acm.rar_ACM 语音_ACM控件_acm delphi_delphi6_录音播放