CUDA编程入门：深入理解NVIDIA的GPGPU模型

需积分: 9 48 浏览量更新于2024-07-29 收藏 400KB PDF 举报

"CUDA应用参考手册是一本针对NVIDIA的CUDA技术的编程指南，适合初学者，通过深入浅出的方式介绍CUDA编程，并分享了作者Hotball的实战经验。CUDA是NVIDIA提出的GPGPU（通用计算图形处理器）模型，允许开发者使用C语言编写在GPU上运行的程序，简化了对GPU编程的学习过程。CUDA工具套件由NVIDIA免费提供，包含开发环境、示例代码和文档。GPGPU的优势在于其高内存带宽、大量执行单元和相对较低的成本，适用于视频处理、金融计算、地质勘探和科学计算等多个领域。然而，GPGPU也存在缺点，如非并行化任务效率较低。" CUDA是NVIDIA推出的一种编程模型，全称为Compute Unified Device Architecture，即统一计算设备架构。它为程序员提供了通过C语言或者C++的扩展来直接访问GPU硬件的能力，使得GPU不再仅仅用于图形渲染，而是能够处理大规模数据并行计算的任务。CUDA的核心概念包括线程、线程块、网格和共享内存等，这些设计使得在GPU上的并行计算变得更加高效和灵活。 CUDA编程的主要步骤包括定义计算函数（kernel），设置线程结构，分配内存，以及启动kernel。Kernel函数在GPU上并行执行，每个线程处理一部分数据。线程块和网格的概念用于组织和调度这些线程，共享内存则允许线程块内的线程快速通信，提高效率。此外，CUDA还提供了丰富的库函数，如CUDA CUBLAS（用于线性代数运算）和CUDA CUFFT（用于快速傅里叶变换），方便开发者进行高性能计算。 CUDA工具套件是CUDA开发的重要组成部分，包括CUDA Compiler (nvcc)、CUDA运行时库、CUDA SDK（软件开发套件）等。SDK提供了多个示例程序，涵盖了基础到高级的CUDA编程技术，帮助开发者理解和掌握CUDA编程。同时，NVIDIA还提供了CUDA Zone网站，上面有最新的CUDA工具和文档可供下载。尽管CUDA在并行计算方面有着显著优势，但也需要注意其缺点。由于GPU的架构优化了并行处理，对于不能有效并行化的任务，使用GPU可能无法获得显著的性能提升，甚至可能因为额外的内存拷贝和上下文切换开销而降低整体效率。此外，虽然GPU的价格相对于高性能CPU而言较便宜，但完整的CUDA开发环境可能还需要高性能的工作站，这增加了总体成本。 CUDA为开发者提供了一种强大的工具，通过充分利用GPU的计算能力，可以实现许多传统CPU难以企及的高性能计算任务。对于有兴趣探索并行计算和GPU编程的人来说，CUDA应用参考手册是一份非常有价值的参考资料。

int main()

{

if(!InitCUDA()) {

return 0;

}

printf("CUDA initialized.\n");

return 0;

}

这样就可以利用 nvcc 来 compile 这个程序了。使用 Visual Studio 的话，若按照先前的设定

方式，可以直接 Build Project 并执行。

nvcc 是 CUDA 的 compile 工具，它会将 .cu 檔拆解出在 GPU 上执行的部份，及在 host 上

执行的部份，并呼叫适当的程序进行 compile 动作。在 GPU 执行的部份会透过 NVIDIA 提

供的 compiler 编译成中介码，而 host 执行的部份则会透过系统上的 C++ compiler 编译（在

Windows 上使用 Visual C++ 而在 Linux 上使用 gcc）。

编译后的程序，执行时如果系统上有支持 CUDA 的装置，应该会显示 CUDA initialized. 的

讯息，否则会显示相关的错误讯息。

利用 CUDA 进行运算

到目前为止，我们的程序并没有做什么有用的工作。所以，现在我们加入一个简单的动作，

就是把一大堆数字，计算出它的平方和。

首先，把程序最前面的 include 部份改成：

#include <stdio.h>

#include <stdlib.h>

#include <cuda_runtime.h>

#define DATA_SIZE 1048576

int data[DATA_SIZE];

并加入一个新函式 GenerateNumbers：

void GenerateNumbers(int *number, int size)

{

for(int i = 0; i < size; i++) {

number[i] = rand() % 10;

}

这个函式会产生一大堆 0 ~ 9 之间的随机数。

要利用 CUDA 进行计算之前，要先把数据复制到显卡内存中，才能让显示芯片使用。因此，

需要取得一块适当大小的显卡内存，再把产生好的数据复制进去。在 main 函式中加入：

GenerateNumbers(data, DATA_SIZE);

int* gpudata, *result;

cudaMalloc((void**) &gpudata, sizeof(int) * DATA_SIZE);

cudaMalloc((void**) &result, sizeof(int));

cudaMemcpy(gpudata, data, sizeof(int) * DATA_SIZE,

cudaMemcpyHostToDevice);

上面这段程序会先呼叫 GenerateNumbers 产生随机数，并呼叫 cudaMalloc 取得一块显卡内存

（result 则是用来存取计算结果，在稍后会用到），并透过 cudaMemcpy 将产生的随机数复

制到显卡内存中。cudaMalloc 和 cudaMemcpy 的用法和一般的 malloc 及 memcpy 类似，不

过 cudaMemcpy 则多出一个参数，指示复制内存的方向。在这里因为是从主内存复制到显卡

内存，所以使用 cudaMemcpyHostToDevice 。如果是从显卡内存到主内存，则使用

cudaMemcpyDeviceToHost。这在之后会用到。

接下来是要写在显示芯片上执行的程序。在 CUDA 中，在函式前面加上 __global__ 表示这

个函式是要在显示芯片上执行的。因此，加入以下的函式：

__global__ static void sumOfSquares(int *num, int* result)

{

int sum = 0;

int i;

for(i = 0; i < DATA_SIZE; i++) {

sum += num[i] * num[i];

}

*result = sum;

}

在显示芯片上执行的程序有一些限制，例如它不能有传回值。其它的限制会在之后提到。

接下来是要让 CUDA 执行这个函式。在 CUDA 中，要执行一个函式，使用以下的语法：

函式名称<<<block 数目, thread 数目, shared memory 大小>>>(参数...);

呼叫完后，还要把结果从显示芯片复制回主内存上。在 main 函式中加入以下的程序：

sumOfSquares<<<1, 1, 0>>>(gpudata, result);

int sum;

cudaMemcpy(&sum, result, sizeof(int), cudaMemcpyDeviceToHost);

cudaFree(gpudata);

cudaFree(result);

printf("sum: %d\n", sum);

因为这个程序只使用一个 thread，所以 block 数目、thread 数目都是 1。我们也没有使用到

任何 shared memory，所以设为 0。编译后执行，应该可以看到执行的结果。

为了确定执行的结果正确，我们可以加上一段以 CPU 执行的程序代码，来验证结果：

sum = 0;

for(int i = 0; i < DATA_SIZE; i++) {

sum += data[i] * data[i];

}

printf("sum (CPU): %d\n", sum);

编译后执行，确认两个结果相同。

计算运行时间

CUDA 提供了一个 clock 函式，可以取得目前的 timestamp，很适合用来判断一段程序执行

所花费的时间（单位为 GPU 执行单元的频率）。这对程序的优化也相当有用。要在我们的

程序中记录时间，把 sumOfSquares 函式改成：

剩余30页未读，继续阅读

XiaR_MH

粉丝: 0
资源: 1

CUDA编程入门：深入理解NVIDIA的GPGPU模型

藏区特产销售平台--论文.zip

caribou-devel-0.4.21-1.el7.x86_64.rpm.zip

avahi-qt3-0.6.31-20.el7.x86_64.rpm.zip

ant-javamail-1.9.4-2.el7.noarch.rpm.zip

atk-2.28.1-2.el7.x86_64.rpm.zip

boost-mpich-1.53.0-28.el7.x86_64.rpm.zip

YT107-家用绿色电子血压计设计.zip

automoc-1.0-0.20.rc3.el7.x86_64.rpm.zip

boost-atomic-1.53.0-28.el7.i686.rpm.zip

apache-commons-logging-1.1.2-7.el7.noarch.rpm.zip

最新资源