CUDA 2.0编程入门：并行模型与API详解

需积分: 15 151 浏览量更新于2024-07-27 收藏 2.6MB PDF 举报

NVIDIA CUDA编程指南，版本2.0，是针对NVIDIA计算统一设备架构(CUDA)的全面教程。CUDA是一种专为图形处理单元(GPU)设计的并行编程模型，旨在利用GPU的高度并行性和多线程特性来加速计算密集型任务。这份指南主要分为四个章节： 1. **简介**： - CUDA提供了一种可伸缩并行编程模型，使得开发者能够编写能够在CPU和GPU之间无缝协作的应用程序。 - GPU的特点是拥有众多并行处理核心，称为多核处理器，能同时执行大量独立任务。 - 文档结构清晰，介绍了整个指南的组织方式，以便读者循序渐进地学习。 2. **编程模型**： - 线程层次结构涉及到CUDA程序如何在GPU上组织和执行，包括线程块(block)和线程(thread)的概念。 - 存储器层次结构包括全局内存、共享内存和纹理内存，用于管理和访问不同的数据存储区域。 - 主机和设备之间的交互，解释了CPU和GPU之间的数据传输和控制流管理。 - 软件栈概述了CUDA编程所需的工具链，包括CUDA编程语言、驱动程序和NVCC编译器。 3. **GPU实现**： - 描述了CUDA架构中的SIMT（Single Instruction Multiple Thread）多处理器，以及它们如何共享芯片内存。 - 讨论了单个GPU设备到多个GPU设备的扩展性，以及程序如何在不同设备间切换执行模式。 4. **应用程序编程接口**： - CUDA对C语言进行了扩展，引入了特殊的限定符如 `_device_`、 `_global_` 和 `_host_`，以区分在GPU或CPU上运行的代码。 - 详细解释了变量类型限定符，如常量、共享和全局变量的使用规则。 - 计算配置参数如gridDim、blockIdx、blockDim、threadIdx等内置变量，用于指定并行任务的分布和执行环境。 - NVCC编译器的一些特殊选项，如`_noinline_`和`#pragma unroll`，对性能优化的重要性。此外，指南还介绍了通用运行时组件，如内置向量类型，这些提供了高效的向量化操作支持。这份指南涵盖了CUDA编程的基础概念、架构细节和实用编程技巧，对于想要利用NVIDIA GPU进行并行计算的开发者来说，是不可或缺的参考资源。

CUDA

编程指南，版本

2.0 7

串行代码在主机上执行，而并行代码在设备上执行。

图

2-3.

异构编程

2.4

2.4 软件栈

软件栈

CUDA 软件栈包含多个层，如图 2-4 所示：设备驱动程序、应用程序编程接口（ API ）及其运行时、两个

较高级别的通用数学库，即 CUFFT 和 CUBLAS ，这些内容均在其他文档中介绍。

CUDA

编程指南，版本

2.0 9

第

章

GPU

实现

NVIDIA 于 2006 年 11 月引入的 Tesla 统一图形和计算架构扩展了 GPU ，超越了图形领域，其强大的

多线程处理器阵列已经成为高效的统一平台，同时适用于图形和通用并行计算应用程序。通过扩展处理器

和存储器分区的数量， Tesla 架构就延伸了市场覆盖率，从高性能发烧级 GeForce GTX 280 GPU 和专业

Quadr 与 Tesla 计算产品，一直到多种主流经济型 GeForce GPU （在附录 A 中可查看所有支持 CUDA 的

GPU 的列表）。其计算特性支持利用 CUDA 在 C 语言中直观地编写 GPU 核心程序。 Tesla 架构具有在

笔记本电脑、台式机、工作站和服务器上的广泛可用性，配以 C 语言编程能力和 CUDA 软件，使这种

架构成为最优秀的超级计算平台。

这一章介绍了 CUDA 编程模型与 Tesla 架构的映射。

3.1

具有芯片共享存储器的一组

SIMT

多处理器

Tesla 架构的构建以一个可伸缩的多线程流处理器（ SM ）阵列为中心。当主机 CPU 上的 CUDA 程序调

用内核网格时，网格的块将被枚举并分发到具有可用执行容量的多处理器上。一个线程块的线程在一个多

处理器上并发执行。在线程块终止时，将在空闲多处理器上启动新块。

多处理器包含 8 个标量处理器（ SP ）核心、两个用于先验（ transcendental ）的特殊函数单元、一个多线程

指令单元以及芯片共享存储器。多处理器会在硬件中创建、管理和执行并发线程，而调度开销保持为 0 。

它可通过一条内部指令实现 _syncthreads()_ 屏障同步。快速的屏障同步与轻量级线程创建和零开销的线程

调度相结合，有效地为细粒度并行化提供了支持，举例来说，您可以为各数据元素（如图像中的一个像素

、

语音中的一个语音元素、基于网格的计算中的一个单元）分配一个线程，从而对问题进行细粒度分解。

为了管理运行各种不同程序的数百个线程，多处理器利用了一种称为 SIMT （单指令、多线程）的新架构

。

多处理器会将各线程映射到一个标量处理器核心，各标量线程使用自己的指令地址和寄存器状态独立执

行。多处理器 SIMT 单元以 32 个并行线程为一组来创建、管理、调度和执行线程，这样的线程组称为 warp

块。（此术语源于第一种并行线程技术 weaving 。半 warp 块可以是一个 warp 块的第一半或第二半。）构

成 SIMT warp 块的各个线程在同一个程序地址一起启动，但也可随意分支、独立执行。

为一个多处理器指定了一个或多个要执行的线程块时，它会将其分成 warp 块，并由 SIMT 单元进行调度

。

将块分割为 warp 块的方法总是相同的，每个 warp 块都包含连续的线程，递增线程 ID ，第一个 warp 块

中包含线程 0 。第 2.1 节介绍了线程 ID 与块中的线程索引之间的关系。

每发出一条指令时， SIMT 单元都会选择一个已准备好执行的 warp 块，并将下一条指令发送到该 warp 块

的活动线程。

arp 块每次执行一条通用指令，因此在 warp 块的全部 32 个线程均认可其执行路径时，

可达到最高效率。如果一个 warp 块的线程通过独立于数据的条件分支而分散， warp 块将连续执行所使

用的各分支路径，而禁用未在此路径上的线程，完成所有路径时，线程重新汇聚到同一执行路径下。分支

仅在 warp 块内出现，不同的 warp 块总是独立执行的 —— 无论它们执行的是通用的代码路径还是彼此无

关的代码路径。

SIMT 架构类似于 SIMD （单指令、多数据）向量组织方法，共同之处是使用单指令来控制多个处理元素

。

一项主要差别在于 SIMD 向量组织方法会向软件公开 SIMD 宽度，而 SIMT 指令指定单一线程的执行和

分支行为。与 SIMD 向量机不同， SIMT 允许程序员为独立、标量线程编写线程级的并行代码，还允许为

协同线程编写数据并行代码。为了确保正确性，程序员可忽略 SIMT 行为，但通过维护很少需要使一个

warp 块内的线程分支的代码，即可实现显著的性能提升。在实践中，这与传统代码中的超高速缓冲存储

器线作用相似：在以正确性为目标进行设计时，可忽略超高速缓冲存储器线的大小，但如果以峰值性能为

目标进行设计，在代码结构中就必须考虑其大小。另一方面，向量架构要求软件将负载并入向量，并手动

管理分支。

剩余76页未读，继续阅读

码侬

粉丝: 50
资源: 111

CUDA 2.0编程入门：并行模型与API详解

NVIDIA_CUDA_C_ProgrammingGuide（CUDA 编程指南）

NVIDIACUDA统一计算设备架构编程指南version2.0

CUDA_2.0编程指南_NVIDIA_CUDA_Programming_Guide_2.0Final

nvidia cuda编程指南

NVIDIA CUDA编程指南.pdf

NVIDIA CUDA编程指南/opencv教程/pytorch教程（中文版）

NVIDIA CUDA编程指南详解

NVIDIA CUDA 编程指南：并行计算必备

NVIDIA CUDA编程指南：入门与接口详解

NVIDIA CUDA编程指南中文版v1.1详解

最新资源