CUDA C++编程指南：异步复制与并行计算

需积分: 0 81 浏览量更新于2024-07-09 收藏 2.86MB PDF 举报

"CUDA_C_Programming_Guide.pdf" CUDA C++ 编程指南是一本详细介绍如何使用CUDA C++进行并行计算的权威文档。CUDA（Compute Unified Device Architecture）是NVIDIA公司开发的一种并行计算平台和编程模型，它允许开发者利用图形处理单元（GPU）的强大计算能力来执行通用计算任务，而不仅仅是图形渲染。该指南涵盖了从基础概念到高级特性的全面内容，旨在帮助开发者充分利用GPU的并行性提升应用程序的性能。在最新版v11.2中，文档进行了以下更新： 1. 异步数据拷贝：新增了对`cuda::memcpy_async`和`cooperative_group::memcpy_async`的更新，这使得开发者能够更高效地进行异步数据传输，从而提高程序的并发性和性能。 2. 异步屏障：`cuda::barrier`的更新提供了更强大的同步机制，允许线程组内的所有线程在继续执行之前等待所有线程到达指定位置，这对于多线程协作至关重要。 3. 编译优化提示函数：增加了这些函数以帮助编译器进行更有效的代码优化，进一步提升代码执行效率。本书分为多个章节，详细讲解CUDA编程的关键概念和技术： - 第1章：介绍。首先阐述了使用GPU的益处，包括其并行处理能力。接着介绍了CUDA作为一个通用并行计算平台和编程模型的特性，强调其可扩展性。文档结构也在此部分中得到概述。 - 第2章：编程模型。这一章深入讨论了CUDA的核心概念，如内核（用于在GPU上运行的函数），线程层次结构（线程块、线程网格等），内存层次结构（全局内存、共享内存、常量内存和纹理内存），以及如何在CPU和GPU之间进行异构编程。最后，提到了不同的计算能力版本，这些版本对应于不同GPU硬件的功能集。 - 第3章：编程接口。这部分详细介绍了如何使用NVCC编译器进行CUDA程序的构建和编译流程，包括离线编译和即时编译（JIT）。还讨论了二进制兼容性、PTX（Parallel Thread Execution）兼容性、应用兼容性和64位兼容性，这些都是确保CUDA程序在不同系统上可移植性的重要方面。此书适合对并行计算感兴趣的开发者，尤其是那些希望利用CUDA C++将高性能计算应用到科学计算、图像处理、机器学习等领域的人群。通过深入理解和实践书中内容，开发者可以编写出高效利用GPU的程序，大幅提升计算速度。

CUDA C++ Programming Guide PG-02829-001_v11.2|xvi

L.1.5.Multi-GPU....................................................................................................................... 339

L.1.6.System Allocator............................................................................................................ 340

L.1.7.Hardware Coherency......................................................................................................340

L.1.8.Access Counters.............................................................................................................341

L.2.Programming Model.............................................................................................................342

L.2.1.Managed Memory Opt In............................................................................................... 342

L.2.1.1.Explicit Allocation Using cudaMallocManaged().................................................... 342

L.2.1.2.Global-Scope Managed Variables Using __managed__........................................ 343

L.2.2.Coherency and Concurrency......................................................................................... 343

L.2.2.1.GPU Exclusive Access To Managed Memory......................................................... 344

L.2.2.2.Explicit Synchronization and Logical GPU Activity.................................................345

L.2.2.3.Managing Data Visibility and Concurrent CPU + GPU Access with Streams........ 346

L.2.2.4.Stream Association Examples................................................................................ 347

L.2.2.5.Stream Attach With Multithreaded Host Programs...............................................347

L.2.2.6.Advanced Topic: Modular Programs and Data Access Constraints......................348

L.2.2.7.Memcpy()/Memset() Behavior With Managed Memory.......................................... 349

L.2.3.Language Integration..................................................................................................... 350

L.2.3.1.Host Program Errors with __managed__ Variables..............................................350

L.2.4.Querying Unified Memory Support................................................................................351

L.2.4.1.Device Properties.....................................................................................................351

L.2.4.2.Pointer Attributes.................................................................................................... 351

L.2.5.Advanced Topics............................................................................................................. 351

L.2.5.1.Managed Memory with Multi-GPU Programs on pre-6.x Architectures...............351

L.2.5.2.Using fork() with Managed Memory....................................................................... 352

L.3.Performance Tuning............................................................................................................. 352

L.3.1.Data Prefetching.............................................................................................................353

L.3.2.Data Usage Hints........................................................................................................... 354

L.3.3.Querying Usage Attributes.............................................................................................355

CUDA C++ Programming Guide PG-02829-001_v11.2|xvii

List of Figures

Figure1. The GPU Devotes More Transistors to Data Processing ..................................................2

Figure2. GPU Computing Applications .............................................................................................3

Figure3. Automatic Scalability .......................................................................................................... 5

Figure4. Grid of Thread Blocks ........................................................................................................ 9

Figure5. Memory Hierarchy ............................................................................................................ 11

Figure6. Heterogeneous Programming ..........................................................................................13

Figure7. Matrix Multiplication without Shared Memory ................................................................29

Figure8. Matrix Multiplication with Shared Memory ..................................................................... 32

Figure9. Child Graph Example ........................................................................................................42

Figure10. Creating a Graph Using Graph APIs Example .............................................................. 43

Figure11. The Driver API Is Backward but Not Forward Compatible .........................................101

Figure12. Parent-Child Launch Nesting ...................................................................................... 227

Figure13. Nearest-Point Sampling Filtering Mode ..................................................................... 303

Figure14. Linear Filtering Mode ................................................................................................... 304

Figure15. One-Dimensional Table Lookup Using Linear Filtering ............................................. 305

Figure16. Examples of Global Memory Accesses ........................................................................314

Figure17. Strided Shared Memory Accesses ...............................................................................317

Figure18. Irregular Shared Memory Accesses ............................................................................ 318

Figure19. Library Context Management .......................................................................................329

CUDA C++ Programming Guide PG-02829-001_v11.2|xviii

List of Tables

Table1. Linear Memory Address Space ......................................................................................... 20

Table2. Cubemap Fetch ...................................................................................................................62

Table3. Throughput of Native Arithmetic Instructions ................................................................ 117

Table4. Alignment Requirements ................................................................................................. 130

Table5. New Device-only Launch Implementation Functions .....................................................235

Table6. Supported API Functions ................................................................................................. 236

Table7. Single-Precision Mathematical Standard Library Functions with Maximum ULP

Error.............................................................................................................................................. 251

Table8. Double-Precision Mathematical Standard Library Functions with Maximum ULP

Error.............................................................................................................................................. 254

Table9. Functions Affected by -use_fast_math ........................................................................... 258

Table10. Single-Precision Floating-Point Intrinsic Functions .................................................... 258

Table11. Double-Precision Floating-Point Intrinsic Functions ...................................................260

Table12. C++11 Language Features ............................................................................................. 261

Table13. C++14 Language Features ............................................................................................. 264

Table14. Feature Support per Compute Capability ..................................................................... 306

Table15. Technical Specifications per Compute Capability .........................................................307

Table16. Objects Available in the CUDA Driver API .................................................................. 326

Table17. CUDA Environment Variables ......................................................................................333

剩余374页未读，继续阅读

chend926

粉丝: 1
资源: 11

CUDA C++编程指南：异步复制与并行计算

CUDA_C_Programming_Guide的下载与翻译指南

CUDA C编程指南：CUDA6.0版本详细文档

CUDA C++编程指南：11.2版更新与特性解析

2024.1.8新版CUDA 官方文档CUDA_C_Programming_Guide.pdf

CUDA_C_Programming_Guide.rar_Windows编程_Others_

NVIDIA_CUDA_Programming_Guide_2.2.1.pdf

CUDA_C_Programming_Guide v10.0.pdf

CUDA_C_Programming_Guide、CUDA并行程序设计 GPU编程指南

CUDA11.0-C-Programming-Guide.pdf

GPU.Programming.Guide.rar_GPU编程指南

最新资源