CUDA编程详解：线程层次结构与矩阵运算

5星 · 超过95%的资源需积分: 5 179 浏览量更新于2024-07-26 收藏 1.2MB DOC 举报

"CUDA编程要点与GPU并行计算详解" CUDA编程是利用NVIDIA GPU的并行计算能力进行高性能计算的一种技术。CUDA的核心是通过编写CUDA C/C++程序，利用特殊的函数（即kernel）来调度GPU上的线程，执行并行计算任务。在CUDA编程中，了解线程层次结构和内存模型是非常关键的。 1. __global__ 函数与Kernel调用 `__global__`关键字用于定义在GPU上运行的函数，即kernel。在提供的代码示例中，`vecAdd`是一个简单的kernel，它对两个浮点数数组A和B执行逐元素加法，并将结果存储在数组C中。kernel的调用方式是通过`<<<...>>>`运算符，其中第一个参数表示线程网格的维度，第二个参数表示线程块的维度。 2. 线程层次结构与线程索引 CUDA中的线程组织成线程块和线程网格。线程块内的线程可以通过`threadIdx.x`, `threadIdx.y`, `threadIdx.z`来标识，而线程块可以通过`blockIdx.x`, `blockIdx.y`, `blockIdx.z`来区分。在二维或三维线程块中，线程ID的计算涉及到块的维度。例如，在二维线程块中，索引为`(x, y)`的线程ID为`(x + y * blockDim.x)`。 3. 矩阵运算与二维线程块在矩阵加法的`matAdd` kernel中，使用二维线程块来并行处理矩阵元素。每个线程负责处理矩阵的一个元素。通过设置`dim3 dimBlock(N, N)`来定义线程块的大小，然后通过`<<<1, dimBlock>>>`启动kernel。 4. 同步与限制 `__syncthreads()`函数用于在同一个线程块内的所有线程之间创建同步点，确保所有线程在此点之前完成其工作。由于GPU的每个流处理器（CUDA Core）具有有限的共享内存，因此线程块的大小受到限制。在Tesla架构中，最大线程块大小为512个线程。 5. 线程网格与块索引线程块组织成一维或二维的线程网格，网格的维度在`<<<...>>>`运算符的第一个参数中指定。内置的`blockIdx`变量用于获取当前线程块的索引，而`blockDim`则用于获取线程块的维度信息。 6. 内存模型 CUDA程序需要考虑全局内存、共享内存、常量内存和纹理内存等多种内存类型。全局内存是所有线程都能访问的，但访问速度较慢。共享内存位于每个线程块内部，访问速度快，但需要手动管理。常量内存和纹理内存则有特定的优化用途。 7. 并行计算与性能优化为了充分利用GPU的并行计算能力，开发者需要考虑如何有效分配工作负载，避免数据冲突，并利用流（stream）和内存对齐等技巧来提高性能。理解以上CUDA编程要点，可以帮助开发者编写高效、并行的CUDA程序，实现GPU加速计算。在实际应用中，还需要关注错误检查、内存管理、设备选择、性能分析等更多细节，以确保程序的正确性和高性能。

将共享存储器中的变量声明为外部数组时，例如：

extern __shared__ float shared[];

数组的大小将在启动时确定（参见第 4.2.3 节）。所有变量均以这种形式声明，在存储器中的同一地址开始，因此数组中

的变量布局必须通过偏移显式管理。例如，如果一名用户希望在动态分配的共享存储器内获得与以下代码对应的内容：

short array0[128];

float array1[64];

int array2[256];

则应通过以下方法声明和初始化数组：

extern __shared__ char array[];

__device__ void func() // __device__ or __global__ function

{

short* array0 = (short*)array;

float* array1 = (float*)&array0[128];

int* array2 = (int*)&array1[64];

}

4.2.2.4 限制

不允许为在主机上执行的函数内的 struct 和 union 成员、形参和局部变量使用这些限定符。

_shared_ 和 _constant_ 变量具有隐含的静态存储。

_device_、_shared_ 和 _constant_ 变量无法使用 extern 关键字定义为外部变量。

_device_ 和 _constant_ 变量仅允许在文件作用域内使用。

不可为设备或从设备指派 _constant_ 变量，仅可通过主机运行时函数从主机指派（参见第 4.5.2.3 节和第 4.5.3.6 节）。

_shared_ 变量的声明中不可包含初始化。

在设备代码中声明、不带任何限定符的自动变量通常位于寄存器中。但在某些情况下，编译器可能选择将其置于本地存储

器中。如果使用占用了过多寄存器空间的大型结构或数组，或者编译器无法确定其是否使用固定数量索引的数组，则往往

会出现这种情况。检查 ptx 汇编代码（通过使用 –ptx 或 –keep 选项编译获得）即可在初次编译过程中确定一个变量是否位

于本地存储器中，因为它将使用 .local 助记符声明，可使用 ld.local 和 st.local 助记符访问。如果不是这样，在后续编译阶

段仍能确定是否占用了目标架构的过多寄存器空间。可通过使用 --ptxas- options =-v 选项编译来进行检查，这将报告本地存

储器的使用情况（lmem）。

只要编译器能够确定在设备上执行的代码中的指针指向的是共享存储器空间还是全局存储器空间，此类指针即受支持，否

则将仅限于指向在全局存储器空间中分配或声明的存储器。

如果取消在主机上执行的代码中全局或共享存储器指针，或者在设备上执行的代码中主机存储器指针的引用，将导致不确

定的行为，往往会出现分区错误和应用程序终止。

通过获取 _device_、_shared_ 或 _constant_ 变量的地址而获得的地址仅可在设备代码中使用。通过 cudaGetSymbolAddress()

（参见第 4.5.23 节）获取的 _device_ 或 _constant_ 变量的地址仅可在主机代码中使用。

4.2.3 执行配置

对 _global_ 函数的任何调用都必须指定该调用的执行配置。

执行配置定义将用于在该设备上执行函数的网格和块的维度，以及相关的流（有关流的内容将在第 4.5.1.5 节介绍）。可通

过在函数名称和括号参数列表之间插入 <<<Dg, Db, Ns, s>>> 形式的表达式来指定，其中：

4.2.5 使用 NVCC 进行编译

Nvcc 是一种可简化 CUDA 代码编译过程的编译器驱动程序：它提供了简单、熟悉的命令行选项，通过调用实现不同编译

阶段的工具集合来执行它们。

Nvcc 的基本工作流在于将设备代码与主机代码分离开来，并将设备代码编译为二进制形式或 cubin 对象。所生成的主机代

码将作为需要使用其他工具编译的 C 代码输出，或通过在最后一个编译阶段中调用主机编译器直接作为对象代码输出。

应用程序可忽略所生成的主机代码，使用 CUDA 驱动程序 API 在设备上加载并执行 cubin 对象，也可链接到所生成的主机

代码，其中包含 cubin 对象，其形式为全局初始化数据数组，包含将第 4.2.3 节所述执行配置语法转换为必要的 CUDA 运

行启动代码的转换，目的在于加载和启动编译后的各内核（参见第 4.5.2 节）。

编译器的前端根据 C++ 语法规则处理 CUDA 源文件。主机代码支持完整的 C++ 语法。但设备代码仅支持 C++ 的 C 子集，

类、继承、基本块内的变量声明等 C++ 特殊特性不受支持。由于使用了 C++ 语法规则，因此若未经过强制类型转换，无

法将空指针（例如 malloc() 所返回的空指针）指派给非空指针。

关于 nvcc 工作流和命令选项的详细说明将在其他文档中提供。

Nvcc 引入了两个编译器指令，下面几节将加以介绍。

4.2.5.1 _noinline_

默认情况下，_device_ 函数总是内嵌的。_noinline_ 函数限定符可用于指示编译器尽可能不要内嵌该函数。函数体必须位于

所调用的同一个文件内。

如果函数具有指针参数或者具有较大的参数列表，则编译器不会遵从 _noinline_ 限定符。

4.2.5.2 #pragma unroll

默认情况下，编译器将展开具有已知行程计数的小循环。#pragma unroll 指令可用于控制任何给定循环的展开操作。它必须

紧接于循环之前，而且仅应用于该循环。可选择在其后接一个数字，指定必须展开多少次循环。

例如，在下面的代码示例中：

#pragma unroll 5

for (int i = 0; i < n; ++i)

循环将展开 5 次。程序员需要负责确保展开操作不会影响程序的正确性（在上面的示例中，如果 n 小于 5，则程序的正确

性将受到影响）。

#pragma unroll 1 将阻止编译器展开一个循环。

如果在 #pragma unroll 后未指定任何数据，如果其行程计数为常数，则该循环将完全展开，否则将不会展开。

4.3 通用运行时组件

主机和设备函数均可使用通用运行时组件。

剩余56页未读，继续阅读

lizhiran5531

粉丝: 1
资源: 3

CUDA编程详解：线程层次结构与矩阵运算

cuda编程要点

CUDA及其编程技术

cuda编程项目实战

cuda编程指南 8.0中文

cuda编程 经典教材

推荐cuda编程的热门书籍

soft nms cuda编程

cuda编程环境暗账

cuda 编程 仿射变换

cuda编程开源模型

最新资源

cuda编程经典教材

cuda 编程仿射变换