C++ AMP：微软针对DirectCompute程序员的指南

需积分: 9 114 浏览量更新于2024-09-09 收藏 766KB PDF 举报

"C++ AMP for the DirectCompute Programmer是微软发布的一份文档，主要面向熟悉DirectCompute API和HLSL（高阶着色语言）或Nvidia Cg着色语言的程序员，提供C++ AMP的入门指导。" 在C++ AMP（Accelerated Massive Parallelism）中，微软为C++引入了两个新的语言特性，以支持并行计算和GPU编程。第一个特性是`tile_static`存储类，它对应于HLSL中的概念，用于在计算单元之间共享数据。`tile_static`变量在执行并行操作时位于同一工作组（work group）内的所有线程之间可见，这允许局部数据交换，提高了计算效率。第二个特性是C++ AMP的模板库，其中包括一系列的并行算法和容器，如`concurrency::array`和`concurrency::parallel_for_each`。`concurrency::array`是一个多维数组类，它支持在设备上高效地存储和处理数据。而`concurrency::parallel_for_each`函数则提供了对数组元素进行并行遍历的能力，可以方便地实现并行计算任务。 DirectCompute与C++ AMP之间的关键差异在于，DirectCompute通常需要将主机代码（通常是C或C++）和设备代码（HLSL内核代码）分开编写，并可能存储在不同文件中，且可能需要生成两个二进制文件。而在C++ AMP中，所有的代码都可以写在同一个C++文件中，由单个编译器生成单一的二进制文件，简化了项目管理和编译流程。 C++ AMP的目标是让程序员能够利用现代GPU的并行计算能力，同时保持C++的熟悉性和生产力。通过在C++中直接进行并行编程，开发者无需学习全新的API或着色语言，而是借助已有的C++技能，结合新特性来实现高效的GPU计算。为了有效地使用C++ AMP，程序员需要理解GPU架构的基本原理，如工作项（work items）、工作组（work groups）以及GPU内存层次结构。同时，还需要掌握如何有效地管理并行度，避免数据竞争和同步问题，以实现最佳性能。在实践中，C++ AMP的应用场景包括但不限于图像处理、物理模拟、科学计算等领域，其中并行计算的潜力可以显著提高处理大量数据的效率。例如，对于图像滤波或像素操作，C++ AMP可以通过并行处理大量像素来加速计算过程。 C++ AMP是微软提供的一种在C++中实现GPU并行计算的框架，它降低了GPU编程的门槛，使C++程序员能更方便地利用GPU的计算能力，从而提升应用程序的性能。这份文档将帮助程序员从熟悉的DirectCompute和HLSL背景过渡到C++ AMP的编程环境。

desc.StructureByteStride = sizeof(float);

D3D11_SHADER_RESOURCE_VIEW_DESC srvDesc;

ZeroMemory(&srvDesc, sizeof(srvDesc));

srvDesc.ViewDimension = D3D11_SRV_DIMENSION_BUFFEREX;

srvDesc.Format = DXGI_FORMAT_UNKNOWN;

srvDesc.BufferEx.NumElements = size * size;

D3D11_UNORDERED_ACCESS_VIEW_DESC uavDesc;

ZeroMemory(&uavDesc, sizeof(uavDesc));

uavDesc.ViewDimension = D3D11_UAV_DIMENSION_BUFFER;

uavDesc.Format = DXGI_FORMAT_UNKNOWN;

uavDesc.Buffer.NumElements = size * size;

D3D11_SUBRESOURCE_DATA InitData;

ID3D11Buffer *d_A;

InitData.pSysMem = A;

hr = device->CreateBuffer(&desc, &InitData, &d_A);

ID3D11ShaderResourceView *d_A_SRV;

hr = device->CreateShaderResourceView(d_A, &srvDesc, &d_A_SRV);

ID3D11Buffer *d_B;

InitData.pSysMem = B;

hr = device->CreateBuffer(&desc, &InitData, &d_B);

ID3D11ShaderResourceView *d_B_SRV;

hr = device->CreateShaderResourceView(d_B, &srvDesc, &d_B_SRV);

ID3D11Buffer *d_C;

hr = device->CreateBuffer(&desc, NULL, &d_C);

ID3D11UnorderedAccessView *d_C_UAV;

hr = device->CreateUnorderedAccessView(d_C, &uavDesc, &d_C_UAV);

array_view<const float, 2> d_A(size, size, A);

array_view<const float, 2> d_B(size, size, B);

array_view<float, 2> d_C(size, size, C);

d_C.discard_data();

In DirectCompute, the variable size must be passed to the kernel by placing it in a constant buffer, padded to be a

multiple of four words. Although in this particular case, a structure is not strictly necessary, it is good form because

it is necessary to pass multiple parameters. The views also must be passed to the kernel explicit. In C++ AMP, as we

will see below, the variable size and the array_view objects are implicitly captured from the outer scope by value.

struct ConstantBufferStruct

{

int size, padding[3];

};

ZeroMemory(&desc, sizeof(desc));

desc.ByteWidth = sizeof(ConstantBufferStruct);

desc.Usage = D3D11_USAGE_DEFAULT;

desc.BindFlags = D3D11_BIND_CONSTANT_BUFFER;

ID3D11Buffer *constantBuffer;

hr = device->CreateBuffer(&desc, NULL, &constantBuffer);

ConstantBufferStruct constantValues = { size };

deviceContext->UpdateSubresource(constantBuffer, 0, NULL, &constantValues, 0, 0);

deviceContext->CSSetConstantBuffers(0, 1, &constantBuffer);

ID3D11UnorderedAccessView* rw_views[1] = { d_C_UAV };

deviceContext->CSSetUnorderedAccessViews(0, 1, rw_views, NULL);

ID3D11ShaderResourceView* ro_views[2] = { d_A_SRV, d_B_SRV };

deviceContext->CSSetShaderResources(0, 2, ro_views);

To launch the computation in C++ AMP, we use a parallel_for_each looping construct similar in form to

剩余10页未读，继续阅读

linkedin_26560145

粉丝: 0
资源: 1

C++ AMP：微软针对DirectCompute程序员的指南

C++ AMP：DirectCompute程序员的新选择

Compute.io 贡献指南：实现灵活、一致且健壮的JavaScript计算库

Yeoman生成器：Compute.io模块快速搭建工具

C++ AMP for the DirectCompute Programmer

Google.Compute.Engine.2014.12.pdf

Singularity_Scientific containers for compute.pdf

DirectCompute

[root@compute-42 ~]# systemctl start openstack-nova-compute.service Job for openstack-nova-compute.service failed because the control process exited with error code. See "systemctl status openstack-nova-compute.service" and "journalctl -xe" for details.

Microsoft Remote Desktop For ec2-18-163-8-46.ap-east-1.compute.amazonaws.com.rdp

华为FusionCompute安装.pdf

最新资源