CUDA编程入门教程：GPU并行处理详解

5星 · 超过95%的资源需积分: 9 25 浏览量更新于2024-07-23 收藏 2.59MB PDF 举报

“CUDA实用教程，一份适合初学者的详细教程，涵盖了GPU功能、构造解析、CUDA函数及编写规范。” CUDA（Compute Unified Device Architecture）是由NVIDIA推出的一种并行计算平台和编程模型，它允许程序员利用图形处理单元（GPU）进行高性能计算。本教程主要面向对CUDA感兴趣的初学者，旨在详细介绍CUDA的编程概念和技术。 1. **CUDA概述** - CUDA是一种可伸缩的并行编程模型，它的核心是将GPU用于通用计算，而非仅仅局限于图形渲染。 - GPU被设计为高度并行化、多线程、多核处理器，能够处理大量数据并行计算任务，从而在科学计算、数据分析等领域展现出高效性能。 2. **编程模型** - **线程层次结构**：CUDA的执行模型包括线程块、线程网格以及线程。线程块内的线程可以进行协作，线程块组成线程网格，覆盖整个计算任务。 - **存储器层次结构**：包括全局内存、共享内存、常量内存和纹理内存，每种内存类型有其特定的访问速度和使用场景。 - **主机和设备**：CUDA程序包含主机代码（CPU）和设备代码（GPU），通过CUDA API进行通信。 - **软件栈**：CUDA程序开发涉及驱动API和运行时API，以及CUDA C++语言扩展。 - **计算能力**：CUDA设备的计算能力反映了其执行复杂计算的速度，通常以“流式多处理器（SM）的数量”和“每个SM的浮点运算能力”来衡量。 3. **GPU实现** - **SIMT多处理器**：GPU由多个单指令多数据（SIMD）流式多处理器构成，每个SIMT单元可以并发执行多个线程。 - **多个设备**：一台计算机可能有多个CUDA兼容的GPU，可以通过CUDA API进行管理。 - **模式切换**：CUDA支持GPU在执行计算任务和渲染任务之间灵活切换。 4. **应用程序编程接口（API）** - **C语言扩展**：CUDA扩展了C++语言，添加了如`__device__`、`__global__`、`__host__`等关键字，以指定函数或变量的存储位置和执行环境。 - **变量类型限定符**：例如`__constant__`用于声明常量内存变量，`__shared__`用于声明共享内存变量。 - **执行配置**：通过`<<<>>>`运算符指定线程块的尺寸和数量，以及它们如何组成线程网格。 - **内置变量**：如`gridDim`、`blockIdx`、`blockDim`和`threadIdx`提供当前执行上下文的信息。 - **编译选项**：如`__noinline__`和`#pragma unroll`影响代码优化和循环展开。 - **通用运行时组件**：包括内置向量类型，如`float4`，简化多维数组的操作。通过学习这个CUDA教程，初学者不仅可以了解GPU的基本原理，还能掌握CUDA编程的基本技巧，包括如何有效地组织和调度线程，如何利用不同类型的内存，以及如何与主机代码进行交互。这些知识对于充分利用GPU的并行计算能力至关重要。

CUDA 编程指南，版本 2.0 7

串行代码在主机上执行，而并行代码在设备上执行。

图 2-3. 异构编程

2.4 软件栈

CUDA 软件栈包含多个层，如图 2-4 所示：设备驱动程序、应用程序编程接口（API）及其运行时、两个

较高级别的通用数学库，即 CUFFT 和 CUBLAS，这些内容均在其他文档中介绍。

CUDA 编程指南，版本 2.0 9

第 3 章 GPU 实现

NVIDIA 于 2006 年 11 月引入的 Tesla 统一图形和计算架构扩展了 GPU，超越了图形领域，其强大的

多线程处理器阵列已经成为高效的统一平台，同时适用于图形和通用并行计算应用程序。通过扩展处理器

和存储器分区的数量，Tesla 架构就延伸了市场覆盖率，从高性能发烧级 GeForce GTX 280 GPU 和专业

Quadr 与 Tesla 计算产品，一直到多种主流经济型 GeForce GPU（在附录 A 中可查看所有支持 CUDA 的

GPU 的列表）。其计算特性支持利用 CUDA 在 C 语言中直观地编写 GPU 核心程序。Tesla 架构具有在

笔记本电脑、台式机、工作站和服务器上的广泛可用性，配以 C 语言编程能力和 CUDA 软件，使这种

架构成为最优秀的超级计算平台。

这一章介绍了 CUDA 编程模型与 Tesla 架构的映射。

3.1 具有芯片共享存储器的一组 SIMT 多处理器

Tesla 架构的构建以一个可伸缩的多线程流处理器（SM）阵列为中心。当主机 CPU 上的 CUDA 程序调

用内核网格时，网格的块将被枚举并分发到具有可用执行容量的多处理器上。一个线程块的线程在一个多

处理器上并发执行。在线程块终止时，将在空闲多处理器上启动新块。

多处理器包含 8 个标量处理器（SP）核心、两个用于先验（transcendental）的特殊函数单元、一个多线程

指令单元以及芯片共享存储器。多处理器会在硬件中创建、管理和执行并发线程，而调度开销保持为 0。

它可通过一条内部指令实现 _syncthreads()_ 屏障同步。快速的屏障同步与轻量级线程创建和零开销的线程

调度相结合，有效地为细粒度并行化提供了支持，举例来说，您可以为各数据元素（如图像中的一个像素、

语音中的一个语音元素、基于网格的计算中的一个单元）分配一个线程，从而对问题进行细粒度分解。

为了管理运行各种不同程序的数百个线程，多处理器利用了一种称为 SIMT（单指令、多线程）的新架构。

多处理器会将各线程映射到一个标量处理器核心，各标量线程使用自己的指令地址和寄存器状态独立执

行。多处理器 SIMT 单元以 32 个并行线程为一组来创建、管理、调度和执行线程，这样的线程组称为 warp

块。（此术语源于第一种并行线程技术 weaving。半 warp 块可以是一个 warp 块的第一半或第二半。）构

成 SIMT warp 块的各个线程在同一个程序地址一起启动，但也可随意分支、独立执行。

为一个多处理器指定了一个或多个要执行的线程块时，它会将其分成 warp 块，并由 SIMT 单元进行调度。

将块分割为 warp 块的方法总是相同的，每个 warp 块都包含连续的线程，递增线程 ID，第一个 warp 块

中包含线程 0。第 2.1 节介绍了线程 ID 与块中的线程索引之间的关系。

每发出一条指令时，SIMT 单元都会选择一个已准备好执行的 warp 块，并将下一条指令发送到该 warp 块

的活动线程。Warp 块每次执行一条通用指令，因此在 warp 块的全部 32 个线程均认可其执行路径时，

可达到最高效率。如果一个 warp 块的线程通过独立于数据的条件分支而分散，warp 块将连续执行所使

用的各分支路径，而禁用未在此路径上的线程，完成所有路径时，线程重新汇聚到同一执行路径下。分支

仅在 warp 块内出现，不同的 warp 块总是独立执行的——无论它们执行的是通用的代码路径还是彼此无

关的代码路径。

SIMT 架构类似于 SIMD（单指令、多数据）向量组织方法，共同之处是使用单指令来控制多个处理元素。

一项主要差别在于 SIMD 向量组织方法会向软件公开 SIMD 宽度，而 SIMT 指令指定单一线程的执行和

分支行为。与 SIMD 向量机不同，SIMT 允许程序员为独立、标量线程编写线程级的并行代码，还允许为

协同线程编写数据并行代码。为了确保正确性，程序员可忽略 SIMT 行为，但通过维护很少需要使一个

warp 块内的线程分支的代码，即可实现显著的性能提升。在实践中，这与传统代码中的超高速缓冲存储

器线作用相似：在以正确性为目标进行设计时，可忽略超高速缓冲存储器线的大小，但如果以峰值性能为

目标进行设计，在代码结构中就必须考虑其大小。另一方面，向量架构要求软件将负载并入向量，并手动

管理分支。

10 CUDA 编程指南，版本 2.0

如图 3-1 所示，每个多处理器都有一个属于以下四种类型之一的芯片存储器：

 每个处理器上有一组本地 32 位寄存器；

 并行数据缓存或共享存储器，由所有标量处理器核心共享，共享存储器空间就位于此处；

 只读固定缓存，由所有标量处理器核心共享，可加速从固定存储器空间进行的读取操作（这是设备存

储器的一个只读区域）；

 一个只读纹理缓存，由所有标量处理器核心共享，加速从纹理存储器空间进行的读取操作（这是设备

存储器的一个只读区域），每个多处理器都会通过实现不同寻址模型和数据过滤的纹理单元访问纹理

缓存，相关内容请参见第 4.3.4 节。

本地和全局存储器空间是设备存储器的读/写区域，不应缓存。

一个多处理器一次可处理的块数量取决于每个线程有多少个寄存器、每个块需要多少共享存储器来支持给

定的内核，这是因为多处理器的寄存器和共享存储器对于一批块的所有线程来说都是分离的。如果没有足

够的寄存器或共享存储器可供多处理器用于处理至少一个块，内核将启动失败。一个多处理器可并发执行

多达 8 个线程块。

如果 warp 块执行的非原子指令为 warp 块的多个线程写入全局或共享存储器中的同一位置，针对此位置

的串行化写入操作的数量和这些写入操作所发生的顺序将无法确定，但其中一项操作必将成功。如果 warp

块执行原子指令来为 warp 块的多个线程读取、修改和写入全局存储器中的同一位置，则针对该位置的每

一项读取、修改或写入操作都将发生，且均为串行化操作，但这些操作所发生的顺序无法确定。

具有芯片共享存储器的一组 SIMT 多处理器

图 3-1. 硬件模型

剩余76页未读，继续阅读

fuxl1990

粉丝: 0
资源: 4

CUDA编程入门教程：GPU并行处理详解

风辰CUDA入门教程：从基础到优化

CUDA入门教程：从基础到优化

CUDA入门教程：快速上手与基础操作

CUDA入门教程 GPU并行计算

cuda教程入门

Linux下NVIDIA显卡驱动与CUDA安装教程

CUDA入门教程：GPU高性能计算详解

CUDA编程教程：GPU并行计算入门指南

VS2017编译OpenCV并利用CUDA加速教程

Win7配置NVIDIA GPU与Theano框架：CUDA安装教程

最新资源