申威众核架构上稀疏矩阵向量乘法性能优化研究

需积分: 10 2 下载量 193 浏览量 更新于2024-07-15 1 收藏 5.14MB PDF 举报
"稀疏矩阵向量乘法在申威众核架构上的性能优化-2020-6" 在高性能计算领域,稀疏矩阵向量乘法(Sparse Matrix-Vector Multiplication, SpMV)是解决大规模线性方程组问题的关键步骤。这篇研究论文专注于在申威26010国产众核处理器上对SpMV进行性能优化,该处理器被广泛应用于国家超级计算无锡中心。由于稀疏矩阵的特性,SpMV操作往往面临数据局部性差、写冲突和负载不均衡等挑战,这些问题极大地影响了计算效率。 文章首先介绍了稀疏矩阵在数值模拟中的重要性,特别是在求解大规模科学问题时,SpMV是最关键的计算瓶颈。作者们分析了稀疏矩阵的计算特性,指出在众核架构下,这些特性导致的性能问题尤为突出,因此需要针对性地进行优化。 在优化策略方面,论文提出了一种基于线程级和指令级并行的细粒度优化方法。线程级并行主要是通过合理分配矩阵的不同部分给不同的处理核心,以减少数据访问冲突和提高内存利用率。而指令级并行则是在单个核心内部利用SIMD(Single Instruction Multiple Data)指令集,同时处理多个数据元素,以提升计算密度。 为了充分利用申威26010处理器的架构特点,研究人员设计了一种矩阵分层分块技术。这种技术可以改善数据访问模式,增强局部性,降低全局缓存的访问压力。此外,通过智能调度策略,他们解决了负载不均衡问题,确保每个处理核心都能有效工作。 论文还详细讨论了优化过程中的具体实现细节,包括矩阵存储格式的选择(如CSR或CSC),以及如何避免写冲突。通过实验结果,作者们展示了他们的优化方案在实际运行中的性能提升,验证了方法的有效性。 这篇论文为国产众核处理器上的高性能计算提供了一个重要的参考,尤其是在解决稀疏矩阵计算的难题上。优化后的SpMV操作能够显著提高计算效率,对于推动国产高性能计算硬件和软件的发展具有重要意义。研究团队成员包括来自清华大学和国家超级计算无锡中心的专家,他们在高性能计算、大规模科学计算、计算机体系结构等领域有着深厚的学术背景。