FPGA上矩阵计算的并行算法与高效结构研究

需积分: 47 18 下载量 25 浏览量 更新于2024-08-07 收藏 6.92MB PDF 举报
"这篇博士学位论文主要探讨了在FPGA(Field-Programmable Gate Array)平台上实现矩阵计算的并行算法与结构优化。作者通过针对基本矩阵运算的FPGA设计方法,提出了一种高存储效率的分块矩阵乘法并行结构,降低了存储需求,并通过时空映射和线性变换优化了数据传输。此外,还研发了FPGA上的列选主元LU分解的细粒度流水线并行算法,适用于下三角方程组求解和多右端项的线性方程组求解。最后,提出了分块稠密矩阵分解的并行算法,通过分而治之的策略优化了LU分解的过程。所有这些工作旨在解决FPGA实现矩阵计算时面临的硬件编程、并行算法设计和硬件结构优化等挑战,提高计算性能并减少资源占用。" 这篇论文详细介绍了FPGA在高能效大数据处理中的应用,特别是针对大规模矩阵计算的问题。首先,文章强调了FPGA作为可重构计算平台的优势,它能够在硬件层面实现定制,提供强大的计算能力。对于矩阵计算,由于其在科学和工程计算中的核心地位,FPGA的并行计算潜力巨大,但同时也存在硬件编程复杂、存储需求高、带宽需求大和可扩展性差等问题。 为了解决这些问题,论文提出了面向基本矩阵运算的FPGA设计策略。这一策略包括了对矩阵向量乘和矩阵乘的时空映射研究,以及分块矩阵乘法的并行结构。通过循环分块等技术,优化了数据传输和存储,使得并行结构能有效处理任意规模的矩阵,同时减少了存储需求。 论文的另一个重要贡献是FPGA上的列选主元LU分解的细粒度流水线并行算法。这个算法充分利用了流水线并行和数据重用,可以扩展到更复杂的线性方程组求解问题。实现该算法的线性阵列结构同时支持LU分解和下三角方程组的求解,具有良好的性能表现。 最后,作者探讨了FPGA上的分块稠密矩阵分解策略,通过分块LU分解策略,结合时空映射技术,优化了串行LU分解的效率,进一步提升了计算性能。 总体而言,这篇论文为FPGA在大规模矩阵计算中的应用提供了新的理论基础和实践方法,有助于推动高性能计算在大数据领域的进步。