FPGA上的矩阵计算并行算法与结构优化
需积分: 47 46 浏览量
更新于2024-08-07
收藏 6.92MB PDF 举报
"这篇博士学位论文主要探讨了在FPGA(Field-Programmable Gate Array)平台上实现矩阵计算的并行算法和结构,特别是在处理大型数据时的高性能计算方法。作者提出了面向基本矩阵运算的FPGA设计策略,以及针对矩阵向量乘和矩阵乘的并行结构,优化了数据传输和存储效率。此外,还介绍了FPGA上的列选主元LU分解细粒度流水线并行算法和全硬件实现的线性阵列结构,以及分块稠密矩阵分解的并行算法和结构。"
文章详细阐述了矩阵向量乘的时空映射原理,指出T1变换和T2变换对计算吞吐率和性能的影响。T1变换允许连续计算,而T2变换可能导致流水线数据通路的停顿,降低了计算效率。矩阵乘不包含RAR相关,可以通过特定公式得到正交行向量。论文中,作者以FPGA为背景,研究了如何在这一可重构计算平台上优化这些操作,以提高计算速度和存储效率。
在FPGA实现矩阵计算的过程中,作者提出了分块矩阵乘并行算法,通过一系列变换和优化,减少了数据传输和存储的需求,使得结构能够处理大规模数据,且存储需求显著降低。此外,还设计了列选主元LU分解的细粒度流水线并行算法,这种算法能有效利用流水线并行和数据重用,适用于下三角方程组求解和其他线性方程组问题。
论文中提出的线性阵列结构是实现这些并行算法的关键,它能同时执行列选主元LU分解和下三角方程组求解,提供了全硬件解决方案,并给出了性能模型以便于性能分析和预测。对于不选主元的LU分解,论文提出了一种分块策略,结合循环分块和时空映射优化了串行LU分解。
这篇论文对FPGA上的矩阵计算并行算法和结构进行了深入研究,提供了高性能和高存储效率的解决方案,对大数据时代下的科学计算和工程应用具有重要价值。
2017-10-18 上传
2017-10-18 上传
2017-10-18 上传
2021-05-12 上传
2018-01-09 上传
2021-03-14 上传
2014-11-26 上传
2018-06-02 上传
2021-04-09 上传
陆鲁
- 粉丝: 26
- 资源: 3883
最新资源
- Advanced_Descriptors-2.1.0-cp36-cp36m-manylinux1_x86_64.whl.zip
- Python库 | goodwe-0.2.8.tar.gz
- JAVA-SSM农产品自主供销小程序+论文.zip
- cici0809.github.io:尝试创建一个网站
- MATLAB调制仿真(BPSK、QPSK、QAM原理及误比特率)
- SimplePdfReport:使用PDFsharp和MigraDoc生成PDF报告
- myTest:项目测试2
- 行业资料-电子功用-具有密闭密封腔和集成光学元件的光电子器件封装的说明分析.rar
- 基于springboot的新生报到注册管理系统(有报告) Javaee项目,springboot项目
- 创意太空元素徽章矢量素材
- 【WordPress插件】2022年最新版完整功能demo+插件.zip
- 基于java-164_基于Springboot的测试项目管理平台-源码.zip
- PMP 项目管理文档模板 -5大过程组:启动阶段 -计划阶段 -执行和控制阶段 -收尾阶段
- Grbl_USB_Native:具有本地USB支持的Grbl的PSoC5端口
- CsvReader:CsvReader
- 行业资料-电子功用-具有导电功能的薄膜及其制备方法的说明分析.rar