FPGA实现矩阵计算:并行算法与高效结构研究

需积分: 47 18 下载量 191 浏览量 更新于2024-08-07 收藏 6.92MB PDF 举报
"这篇博士学位论文主要探讨了在FPGA(现场可编程门阵列)上实现高效能矩阵计算的方法,特别是针对大数据的多维计数器模板应用。作者邬贵明在计算机科学与技术专业,由窦勇教授指导,研究集中在解决FPGA计算中的硬件编程、并行算法设计和硬件结构优化等问题。" 论文详细阐述了以下几个关键知识点: 1. FPGA在可重构计算中的作用:FPGA作为可重构计算平台,因其可定制性和不断提升的硬件资源,使得在处理矩阵计算这类科学与工程应用的核心问题时,具有巨大的潜力。然而,FPGA在矩阵计算的实现上仍存在挑战,如资源占用大、存储需求高、带宽需求大以及可扩展性差。 2. 面向基本矩阵运算的FPGA设计:论文提出了FPGA设计方法和分块矩阵乘法的并行结构,以矩阵向量乘和矩阵乘为例,研究了时空映射和模型构建。通过循环分块等优化手段,实现了数据传输和存储优化,创建了一个能处理任意规模矩阵的高性能、高存储效率的并行结构。实验表明,这种方法在存储需求上从O(b^2)降低到了O(b)。 3. FPGA上的LU分解细粒度流水线并行算法:论文提出了一个针对LU分解的并行算法,该算法充分利用流水线并行和数据重用,可扩展到下三角方程组求解和多右端项的线性方程组求解。使用线性阵列实现全硬件的并行结构,可以同时进行列选主元LU分解和下三角方程组求解。性能模型的建立有助于分析和预测其性能,并且实验结果显示,该并行结构优于现有工作和通用处理器的软件实现。 4. 分块稠密矩阵分解的并行算法与结构:论文针对不选主元的LU分解,提出了一种分块策略,采用循环分块和时空映射等手段,以解决串行LU分解的问题。这种策略旨在优化FPGA上的稠密矩阵分解过程,提高计算效率。 这篇论文为FPGA在大数据环境下的高性能计算提供了新的思路和解决方案,特别是在矩阵计算和线性代数问题的处理上,通过并行化和优化策略,显著提升了计算效率和存储效率,降低了资源需求,对于FPGA在高性能计算领域的应用具有重要的理论和实践价值。