CUDA程序优化：提高计算吞吐量与精度权衡

需积分: 47 84 浏览量更新于2024-07-25 2 收藏 2.25MB PDF 举报

"CUDA 优化涉及对CUDA程序的性能提升，包括CUDA内核优化，以在允许的误差范围内尽可能减少运行时间。CUDA优化注重计算吞吐量而非单个数据的延迟，尤其适用于需要处理大量数据的场景。在考虑CUDA优化前，应评估其在精度、延迟和计算量方面的表现是否符合需求。 1. **精度**：GPU的单精度计算能力强于双精度，对于需要高精度计算（如双精度或四精度）的应用，应当在关键步骤使用双精度，而其他部分则使用单精度以平衡性能和精度。然而，对于极高精度要求，当前架构可能无法提供足够的加速比，下一代GPU架构的改进将对此有所改善。 2. **延迟**：CUDA的并行计算模式可能导致数据传输和处理的延迟，这可能不适合实时性要求极高的应用。如果延迟需要控制在数十毫秒级别，可能需要通过调整缓冲大小来优化。在某些情况下，CPU可能无法达到与CUDA相当的实时性能，这时可能需要考虑ASIC、FPGA或DSP等专用硬件。 3. **计算量**：CUDA优化适合处理大量计算的任务。如果计算量不足，使用CUDA可能会增加不必要的开销。对于低频且单次调用时间可接受的程序，直接使用CPU可能更为合适。 CUDA内核优化通常包括以下步骤： - **代码重构**：将计算密集型任务转移到GPU，利用其并行计算能力。 - **线程块和网格的调整**：合理配置线程块大小和数量，使其充分利用GPU的流处理器。 - **共享内存使用**：通过共享内存减少全局内存访问，提高速度。 - **动态内存管理**：有效使用动态内存，减少内存分配和释放的开销。 - **循环展开和向量化**：通过循环展开和向量化提高指令级并行性。 - **同步和原子操作优化**：避免过多的同步和原子操作，因为它们可能导致性能瓶颈。 - **纹理和常量内存**：对访问频繁且连续的数据使用纹理或常量内存，提高读取速度。 - **流和异步执行**：利用CUDA流，实现计算和数据传输的重叠，提高效率。 - **编译器优化标志**：利用nvcc编译器的优化选项，如 `-O3`，进一步提升性能。 - **分析和调试**：使用Nsight工具等进行性能分析，找出并优化瓶颈。通过这些步骤，开发者可以逐步优化CUDA程序，提高其运行效率和计算吞吐量，以适应不同应用场景的需求。

149

第 4 章 CUDA 程序的优化

能够并行实现的算法并不一定比串行算法快。在问题规模较小时，计算复杂度阶数更高的算法

也有可能比计算复杂度阶数较低的算法耗费更短的时间。根据问题规模，选择适当算法，将任

务中耗费时间最多的大规模数据并行、高计算密集度步骤映射到 GPU 上。

在 CPU 上可以并行实现的算法不一定适用于 GPU。CPU 程序主要考虑的是指令间并行和

粗粒度的软件线程并行，在每个 CPU 线程内还是串行的。由于 CPU 线程粒度往往太大，因此

尽量不要将 CPU 线程直接映射为 GPU 线程。每个 GPU 线程完成的任务更加类似于 CPU 的

多轮循环中的一轮。但也不是所有的循环都能映射为一个内核程序，因为有的循环中每一轮

运算都依赖上一轮的结果，而 GPU 的线程之间是并行的。此时，需要采取其他方式对任务

进行分解。

在两次主机－设备通信之间进行尽量多的计算。由于主机与设备间的数据传输带宽远低

于显存带宽，因此最好在两次通信之间让 GPU 进行尽可能多的运算。如果在两次大规模数据

并行运算之间存在少量的串行运算，有时即使是在 GPU 上以较低的效率进行这些串行运算也

比增加两次主机－设备通信要划算。在 GPU 进行运算的同时，如果可能，也可以让 CPU 进行

一些计算，比如准备下一次计算需要的数据。

应该考虑使用流运算隐藏主机－设备通信时间，以及通过 pinned memory、zero-copy、

write-combined memory 等手段提高实际传输带宽。在集群中使用 CUDA，还需要考虑节点之

间的任务分配与通信问题。

对每个并行步骤进行划分，从不同角度分析有不同的划分方式。

从对显存的访问方向来说，可以按照输入划分或者按照输出划分。如果每个 block 中输入

和输出的数据的比例和位置是固定的，并且能够比较容易地满足合并访问要求，那么这种划分

方式既是按照输入划分的，也是按照输出划分的。这种情况是最理想的，通过 shared memory

和指针类型转换，大多数输入输出都能够很好地满足合并访问条件。

但如果 block 的输入和输出的数据不相同，或者输入和输出无法同时满足合并访问要求，

就必须设法使可用带宽最大化，只按照输入或者只按照输出划分。

按照输入划分的情况有：

 输入参数很多而输出结果很少，如规约、直方图。

 输入满足合并访问条件，但是输出位置随机，或者输出时需要进行显存原子操作，在

流体力学、分子动力学仿真中可能遇到这种情况。

按照输出划分的情况有：

 输入参数很少而输出结果很多，如随机数发生器。Block 内每个线程的输入与其他线

程共用，比如卷积、滤波中，每个线程的输入与周围线程的输入有公共部分，此时应

该先按照合并访问的形式将一块数据读入 shared memory，再由每个线程计算一定数

量的输出，可以参考 SDK 中与滤波和卷积有关的几个例子。

 输入数据在存储器中的位置是随机的，而输出数据时可以满足合并访问条件的情况，

大多数使用纹理的应用，以及一些需要查表的运算都属于这种情况。

从显存访问的形式来说，在一个 block 内可以进行一维的带状划分、二维的棋盘划分或者

三维的域划分。如果要处理的任务不需要线程间通信，并且对显存的访问都能满足合并访问，

那么采用棋盘划分还是带状划分对性能影响并不大。不过，应该尽量使每个 block 中的线程数

量是 32 的整数倍，并根据任务的具体情况确定每个维度上的大小，以减少计算访存地址时的

150

GPU 高性能运算之 CUDA

整数除法和求模运算。

如果需要使用纹理的特殊功能进行图像处理，使用二维棋盘划分是比较自然的。

如果问题在一个或者几个维度方向上有局部性，可以利用 shared memory 提高性能或者必

须在某几个维度内进行线程间通信，那么 block 的维度应该与需要通信的维度一致。比如本章

4.7.1 节的矩阵乘法例子中，既可以进行一维带状划分，也可以按照二维棋盘划分，但二维划

分的算法利用了 shared memory，有效减小了访存次数，并且满足合并访问条件。

对一个 block 的任务进行划分后，再按照 block 的维度和尺寸要求对 grid 进行划分。此时

需要考虑的问题是：

 考虑分区冲突问题，使每个 block 的访存要求均匀分布在显存的各个分区中，例如

4.7.3 节中介绍的矩阵转置，在解决分支冲突问题后，性能有了几倍的提升。

 Block 间负载可以存在一定程度的不均衡，按照 block 为单位分支性能损失也很小。

比如，对网络中的数据进行分析时，可以由一个 grid 处理其中缓冲中的多个包，再

由每个 SM 处理长度和内容都不同的包。

4.3.2 grid 和 block 维度设计

按照 CUDA 的执行模型，grid 中的各个 block 会被分配到 GPU 的各个 SM 中执行。下面

的一些建议能够帮助读者确定合适的 Grid 与 block 尺寸。在设计时，应该优先考虑 block 的尺

寸，而 grid 的尺寸一般来说越大越好。

由 3.2.2.3 小节可知，在 Tesla 架构 GPU 的每个 SM 中，至少要有 6 个 active warp 才能有

效地隐藏流水线延迟。此外，如果所有的 active warp 都来自同一 block，当这个 block 中的线

程进行存储器访问或者同步时，执行单元就会闲置。基于以上原因，最好让每个 SM 上拥有至

少 2 个 active block。

一个 SM 上的 active warp 和 active block 数量计算方法如下：

（1）确定每个 SM 使用的资源数量。

使用 nvcc 的--keep 编译选项，或者在.cu 编译规则（cuda build rule）中选择保留中间文件

（keep preprocessed files），得到.cubin 文件。用写字板打开.cubin 文件，在每个内核函数的开

始部分，可以看到以下几行：

lmem = 0

smem = 256

reg = 8

其中，lmem 和 reg 分别代表内核函数中每个线程使用的 local memory 数量和寄存器数量，

smem 代表每个 block 使用的 shared memory 数量。以上数据告诉我们：这个内核函数的每个

线程使用了 0Byte local memory，8 个寄存器文件（每个寄存器文件的大小是 32bit）；每个 block

使用了 256Byte 的 shared memory。

（2）根据硬件确定 SM 上的可用资源。

可以用 SDK 中的 deviceQuery 获得每个 SM 中的资源。要注意的是，在程序编译时，要

使目标代码和目标硬件版本与实际使用的硬件一致（使用-arch、-gencode 和-code 编译选项）。

在 G80 和 GT200 架构上，这些限制如表 4-1 所示。

剩余48页未读，继续阅读

wu1meng2

粉丝: 0
资源: 1

CUDA程序优化：提高计算吞吐量与精度权衡

cuda_by_example

CUDA卷积详解

CUDA——性能优化（一）

cuda优化文档

MFC中集成CUDA编程步骤详解

Torchvision 0.14.1版本CUDA优化wheel安装包

Torchvision 0.9.0版本CUDA优化Python包安装指南

CUDA优化技巧：提升GPU性能的秘诀

CUDA优化PCISPH算法的不可压缩流体GPU模拟

CUDA优化技巧：性能分析与调优

最新资源