ATI平台CPU-GPU混合并行矩阵乘法:性能提升与分析

需积分: 12 8 下载量 159 浏览量 更新于2024-09-07 收藏 1.03MB PDF 举报
"这篇论文详细探讨了在ATI平台上实现CPU-GPU混合并行的双精度通用矩阵乘法(DGEMM)技术,旨在提升计算性能。通过在GPU和CPU上同时执行计算任务,研究发现当处理大尺寸矩阵时,这种方法相比仅使用GPU能平均提升16%的性能。此外,论文还对混合DGEMM的性能、加速比以及任务分配比例的估算方法进行了实验验证,并深入研究了影响混合并行矩阵乘法性能的关键因素。" 在现代高性能计算领域,GPU(图形处理器)因其并行计算能力而被广泛用于加速计算密集型任务,如矩阵乘法。DGEMM是基本线性代数子程序(BLAS)的一部分,是许多科学计算和工程应用中的核心运算。在本文中,作者程豪等人利用ATI FireStream 9270 GPU和AMD Phenom II X4 940 CPU构建了一个混合并行系统,实现了DGEMM操作。 混合并行计算策略是将计算任务分解,一部分在GPU上执行,另一部分在CPU上执行,以充分利用两种硬件的计算潜力。在实验中,当处理大规模矩阵时,这种混合策略展示了其优越性,平均性能提升16%,这是由于CPU和GPU协同工作,有效地分担了计算负载。 论文还关注了混合DGEMM的加速比,这是一个衡量并行系统性能的关键指标,表示系统相对于单核处理器的速度提升。通过实验,作者验证了估算加速比的方法,并讨论了如何优化任务分配比例以达到最佳性能。这涉及到理解不同大小的矩阵在GPU和CPU之间的最佳分割策略,以及如何根据硬件特性调整任务分配。 此外,论文还深入探讨了影响混合DGEMM性能的因素,可能包括数据传输延迟、GPU与CPU之间的通信开销、内存带宽利用率以及计算单元的饱和度等。这些因素对于优化并行计算系统至关重要,因为它们直接影响到并行计算的效率和速度。 这篇论文为在GPU上实现混合并行矩阵乘法提供了一种有效的方法,并对其性能进行了深入分析,对于理解和优化GPU辅助的并行计算系统具有重要的参考价值。通过这样的研究,我们可以更好地理解和利用硬件资源,从而在科学计算和其他计算密集型应用中实现更高的计算效率。