FPGA实现矩阵计算:高性能并行结构与优化策略

需积分: 47 18 下载量 59 浏览量 更新于2024-08-07 收藏 6.92MB PDF 举报
这篇博士学位论文主要探讨了在大数据背景下,如何利用高性能计算(High Performance Computing, HPC)技术,特别是现场可编程门阵列(Field-Programmable Gate Array, FPGA)来优化矩阵计算的并行算法和结构。作者邬贵明在导师窦勇的指导下,对FPGA在矩阵计算中的应用进行了深入研究,旨在解决硬件编程复杂性、并行算法设计、硬件结构优化等问题。 首先,论文提出了针对基本矩阵运算的FPGA设计方法,特别关注了矩阵向量乘和矩阵乘的实现。通过一种面向FPGA的数据驱动结构模型和基于线性变换的设计方法,能够手动编写或自动生成这些基本矩阵运算的并行结构。实验结果显示,这种自动生成框架对于矩阵向量乘和矩阵乘具有良好的并行性能,并且在未来的工作中计划扩展这一框架,以支持更广泛的数值线性代数算法,提高映射策略的普适性和自动综合技术。 其次,论文介绍了FPGA上的列选主元LU分解的细粒度流水线并行算法,以及用于实现这一算法的线性阵列结构。该并行算法能有效利用流水线并行和数据重用,不仅适用于LU分解,还能扩展到下三角方程组求解和多右端项的线性方程组求解。线性阵列结构同时实现了LU分解和下三角方程组求解,其性能模型有助于性能分析和预测,实验表明这一并行结构在效率上优于其他相关工作和通用处理器的软件实现。 此外,论文还探讨了FPGA上分块稠密矩阵分解的并行算法和结构。通过一种分块策略,不选主元的LU分解被分解成更小的子任务,结合时空映射技术,降低了存储需求和带宽需求。这种方法展示了FPGA在处理大规模矩阵计算时的高效性和扩展性。 总结来说,这篇论文为FPGA在大规模矩阵计算中的应用提供了新的理论和技术支持,通过优化并行算法和硬件结构,提升了计算效率和存储效率,为HPC在大数据环境下的发展提供了重要的研究基础。未来的研究可能会进一步扩展这些方法,以适应更多复杂的数值线性代数算法和更高效的FPGA平台。