FPGA上的矩阵计算并行算法与结构优化

需积分: 47 18 下载量 46 浏览量 更新于2024-08-07 收藏 6.92MB PDF 举报
"这篇博士学位论文主要探讨了在FPGA(Field-Programmable Gate Array)平台上实现矩阵计算的并行算法和结构,特别是在处理大型数据时的高性能计算方法。作者提出了面向基本矩阵运算的FPGA设计策略,以及针对矩阵向量乘和矩阵乘的并行结构,优化了数据传输和存储效率。此外,还介绍了FPGA上的列选主元LU分解细粒度流水线并行算法和全硬件实现的线性阵列结构,以及分块稠密矩阵分解的并行算法和结构。" 文章详细阐述了矩阵向量乘的时空映射原理,指出T1变换和T2变换对计算吞吐率和性能的影响。T1变换允许连续计算,而T2变换可能导致流水线数据通路的停顿,降低了计算效率。矩阵乘不包含RAR相关,可以通过特定公式得到正交行向量。论文中,作者以FPGA为背景,研究了如何在这一可重构计算平台上优化这些操作,以提高计算速度和存储效率。 在FPGA实现矩阵计算的过程中,作者提出了分块矩阵乘并行算法,通过一系列变换和优化,减少了数据传输和存储的需求,使得结构能够处理大规模数据,且存储需求显著降低。此外,还设计了列选主元LU分解的细粒度流水线并行算法,这种算法能有效利用流水线并行和数据重用,适用于下三角方程组求解和其他线性方程组问题。 论文中提出的线性阵列结构是实现这些并行算法的关键,它能同时执行列选主元LU分解和下三角方程组求解,提供了全硬件解决方案,并给出了性能模型以便于性能分析和预测。对于不选主元的LU分解,论文提出了一种分块策略,结合循环分块和时空映射优化了串行LU分解。 这篇论文对FPGA上的矩阵计算并行算法和结构进行了深入研究,提供了高性能和高存储效率的解决方案,对大数据时代下的科学计算和工程应用具有重要价值。