OpenCL中文入门完整教程_opencl教程,opencl入门

OpenCL

5星 · 超过95%的资源需积分: 50 155 浏览量更新于2023-03-16 评论 9 收藏 5.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

AMD OpenCL 大学教程中文版

迈克老狼 @opengpu.org

†

January 10, 2012

1 并行计算概述 3

1.1 并行计算概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 常用基于硬件和软件的并行 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 OpenCL 概述 7

2.1 OpenCL 架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 OpenCL 平台模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 OpenCL 编程的一般步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3.1 命令队列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.2 OpenCL 内存对象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.3 OpenCL 程序对象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.4 Kernel 对象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.5 Kernel 执行 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 GPU 架构 23

3.1 OpenCLspec 和多核硬件的对应关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 一些关于 OpenCL 的特殊主题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3 传统的 CPU 架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.4 现代的 GPGPU 架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.5 AMD GPU 硬件架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.6 Nvdia GPU Femi 架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.6.1 GTX480-Compute 2.0 capability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.6.2 SIMT 和 SIMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.6.3 Nvida GPU 内存机制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.7 Cell Broadband Engine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.8 OpenCL 编译系统 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.9 Installable Client Driver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4 OpenCL buffer 使用及两个简单例子 33

4.1 创建 OpenCL 设备缓冲 (buffer) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.2 图像旋转的例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.3 一个矩阵乘法的例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5 GPU memory 结构 37

5.1 GPU 总线寻址介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.2 合并内存访问 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.3 Global memory 的 bank 以及 channel 访问冲突 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.4 Local memory 的 bank conflit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

英文原版地址：点击这里。

†

欢迎光临 OpenGPU 专业论坛：http://www.opengpu.org

1 并行计算概述

对大多数科学计算和工程应用来说，数据分解一般都是基于输出数据, 例如：

• 在一副图像中，对一个滑动窗口（例如：3*3 像素) 内的像素实施滤波操作，可以得到一个输出像素的卷积。

• 第一个输入矩阵的第 i 行乘以第二个输入矩阵的第 j 列，得到的向量和即为输出矩阵第 i 行，第 j 列的元素。

这种方法对于输入和输出数据是一对一，或者多对一的对应关系比较有效。

也有的数据分解算法是基于输入数据的，这时，输入数据和输出数据一般是一对多的关系，比如求图像的直方图，我们

要把每个像素放到对应的槽中 (bins，对于灰度图，bin 数量通常是 256）。一个搜索函数，输入可能是多个数据，输出却只

有一个值。对于这类应用，我们一般用每个线程计算输出的一部分，然后通过同步以及原子操作得到最终的值，OpenCL

中求最小值的 kernel 函数就是典型代表

。

通常来说，怎样分解问题和具体算法有关，而且还要考虑自己使用的硬件和软件，比如 AMD GPU 平台和 Nvdia GPU

平台的优化就有很多不同。

1.2 常用基于硬件和软件的并行

在上个实际 90 年代，并行计算主要研究如何在 cpu 上实施指自动的指令级并行。

• 同时发射多条指令（之间没有依赖关系），并行执行这些指令。

• 在本教程中，我么不讲述自动的硬件级并行，感兴趣的话，可以看看计算机体系结构的教程。

高层的并行，比如线程级别的并行，一般很难自动化，需要程序员告诉计算机，该做什么，不该做什么。这时，程序员还

要考虑硬件的具体指标，通常特定硬件都是适应于某一类并行编程，比如多核 cpu 就适合基于任务的并行编程，而 GPU

更适应于数据并行编程。

Hardware type Examples Parallelism

Multi-core superscalar processors Phenom II CPU Task

Vector or SIMD processors SSE units (x86 CPUs) Data

Multi-core SIMD processors Radeon 5870 GPU Data

现代的 GPU 有很多独立的运算核（processor）组成，在 AMD GPU 上就是 stream core，这些 core 能够执行 SIMD

操作（单指令，多数据），所以特别适合数据并行操作。通常 GPU 上执行一个任务，都是把任务中的数据分配到各个独立

的 core 中执行。

在 GPU 上，我们一般通过循环展开，Loop strip mining 技术，来把串行代码改成并行执行的。比如在 CPU 上，如果我

们实现一个向量加法，代码通常如下：

for(i = 0; i < n; i++)

{

C[i] = A[i] + B;

}

在 GPU 上，我们可以设置 n 个线程，每个线程执行一个加法，这样大大提高了向量加法的并行性。

可以看下 ATI Stream Computing OpenCL programming guide 第二章中求最小值的 kernel 例子

剩余53页未读，继续阅读

xyh4320121

2019-05-20

是OpenCL中文入门完整教程

jerryzhouyh

粉丝: 13
资源: 10

会员权益专享

OpenCL中文入门完整教程

评论2

会员权益专享

最新资源

OpenCL中文入门完整教程

评论2

OpenCL内建函数中文手册.pdf

学渣都能学会的，opencl中文教程（amd）+快速入门教程

OpenCL 中文教程

opencl中文入门完整教程

异构处理器opencl编程导论 pdf

debian11 系统安装opencl2.2教程

opencl programming by example中文版

opencl编程指南中文版pdf

提供opencl的学习资料

opencl源码如何安装

opencl编程指南 pdf

opencl1.2源码包链接

如何安装opencl平台

瑞芯微rk3588调用opencl

异构处理器opencl编程导论 下载

rk3588如何安装opencl

tb-rk3588 装了opencl3.0如何降到opencl2.0

rk3588调用opencl

opencl库怎么安装

Rtx2070是否支持opencl2.9

会员权益专享

最新资源

异构处理器opencl编程导论下载