写一段cuda代码能进行矩阵乘法
时间: 2023-11-17 09:32:31 浏览: 87
好的,下面是一段示例代码,用于利用CUDA进行矩阵乘法:
```cuda
__global__ void matrixMul(float *A, float *B, float *C, int N) {
int row = blockIdx.y * blockDim.y + threadIdx.y;
int col = blockIdx.x * blockDim.x + threadIdx.x;
if (row < N && col < N) {
float sum = 0;
for (int i = 0; i < N; i++) {
sum += A[row * N + i] * B[i * N + col];
}
C[row * N + col] = sum;
}
}
```
在主函数中,可以调用该kernel进行矩阵乘法的运算:
```cuda
int main() {
int N = 1024;
int size = N * N * sizeof(float);
float *h_A = (float *)malloc(size);
float *h_B = (float *)malloc(size);
float *h_C = (float *)malloc(size);
// 初始化A、B矩阵
// ...
float *d_A, *d_B, *d_C;
cudaMalloc(&d_A, size);
cudaMalloc(&d_B, size);
cudaMalloc(&d_C, size);
cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);
cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);
dim3 block(32, 32);
dim3 grid((N + block.x - 1) / block.x, (N + block.y - 1) / block.y);
matrixMul<<<grid, block>>>(d_A, d_B, d_C, N);
cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);
// 输出结果矩阵
// ...
cudaFree(d_A);
cudaFree(d_B);
cudaFree(d_C);
free(h_A);
free(h_B);
free(h_C);
return 0;
}
```
在这个示例代码中,`matrixMul`是进行矩阵乘法的kernel,其中`block`和`grid`分别指定了每个block和grid的大小。在主函数中,我们首先将数据从主机内存拷贝到设备内存,然后调用kernel进行计算,最后将结果从设备内存拷贝回主机内存。需要注意的是,在进行kernel调用时,需要指定grid和block的大小,以保证所有元素都能够被计算到。
阅读全文