没有合适的资源?快使用搜索试试~ 我知道了~
FPGA上基于LSTM元学习的压缩策略及加速器设计
可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 8(2022)322www.elsevier.com/locate/icte一种在FPGA上加速LSTM元学习的压缩策略王念义a,聂静a,b,李静斌a,b,王康a,凌顺康aa石河子大学机电工程学院,中国石河子b中国新疆生产建设兵团现代农业机械重点实验室,石河子接收日期:2022年2月19日;接收日期:2022年3月23日;接受日期:2022年3月302022年4月6日在线发布摘要在边缘计算的驱动下,如何在资源受限的FPGA终端设备中高效部署元学习者LSTM成为一大难题。本文提出了一种基于LSTM元学习模型的压缩策略,将权值矩阵的结构化修剪和混合精度量化相结合。首先将权值矩阵修剪成稀疏矩阵,然后对权值进行量化,以减少资源消耗。最后,基于软硬件协同的思想设计了一个LSTM元学习加速器。实验表明,与主流硬件平台相比,该加速器的能效至少提高了50.14倍。© 2022作者(S)。由爱思唯尔公司出版代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:边缘计算; FPGA; LSTM元学习加速器;结构修剪;混合精度量化1. 介绍近年来,随着人工智能技术的推广。与此同时,磁化水、磁化肥滴灌技术也逐渐被人们所关注。其主要原理是磁化水肥(PCPMWF)在“剩磁效应”的作用下,其理化性质会不断发生变化最终体现在其质量和产量上。因此,研究PCPMWF的剩磁效应机理具有重要意义。然而,对于本研究而言,影响剩磁效应的因素也相当复杂--在灌溉过程中,磁化水和化肥的流量以及磁化器的磁场强度随灌溉需求而变化[4本研究希望通过直接预测PCPMWF(包括表面张力系数、粘度、电导率和pH值)在田间剩磁效应作用下的变化趋势,进一步达到提高和准确把握作物产量和品质的目的。通讯作者:石河子大学机电工程学院,石河子,中国.电子邮件地址:wangnianyi0305@163.com(N.Wang),niejing19@shzu.edu.cn(J.Nie),lijingbin80952020@163.com(J.Li)。同行审议由韩国通信研究所负责教育与信息科学(KICS)。https://doi.org/10.1016/j.icte.2022.03.014在本研究中,我们的样本的本质是时间序列数据。对于时间序列的预测,RNN是使用最广泛的神经网络,其中LSTM和GRU是常用的[7而不是简单地使用大量冗余数据,有限样本量的有效学习将对本研究有更多的实际意义[10目前,小样本学习已经取得了很多的成果。值得注意的是,在农业领域,Nie等人在PCPMWF的表达预测领域提出了一种基于元学习者LSTM的与传统的MAML相比,它具有更高的学习效率,提高了网络的预测精度[13]。由于高性能神经网络模型的高精度需求往往导致计算资源的大量消耗。使用边缘计算技术来获得更好的解决方案,并将计算能力从云端转移到本地设备。我们计划选择Xilinx zynq-7020全可编程芯片作为硬件平台,它结合了arm编程的灵活性和FPGA强大的处理能力[14作为一种元学习器,LSTM具有高度并行的结构和并行实现能力。结合FPGA的特点,通过时间并行提高系统吞吐量,有效提高模型计算速度。因此,我们打算进一步压缩元学习者LSTM,2405-9595/© 2022作者。 由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。N. Wang、J.Nie,J.Li等人ICT Express 8(2022)322323=−在此模型的基础上,希望高性能的神经网络能够在小器件FPGA上更好的实现众所周知,LSTM等复杂网络中存在大量冗余参数,会占用大量存储空间。相比之下,FPGA的存储资源相对有限。在FPGA对存储器、能耗和带宽的要求下,实现高性能、低能耗的LSTM具有重要的研究意义。通过对LSTM网络模型的研究,利用神经网络压缩和加速技术,提出了一种LSTM压缩策略。目前,主流的网络压缩方法主要包括网络剪枝、低秩估计、模型量化和知识蒸馏。值得注意的是,Wang等人提出了一种结构化剪枝算法。当仅保留18参数时,算法的处理速度提高了7.82倍[18]。Que等人提出了一种新的可重构架构,允许RNN实现4.92到12.4倍的延迟[19]。此外,我们倾向于结合几种方法来处理LSTM网络模型,以提高网络的计算速度本文在PCPMWF的回归预测领域,采用了一种基于元学习者LSTM的元学习优化模型通过对LSTM模型的研究,提出了一种压缩策略。首先,利用权值矩阵的结构化剪枝算法对元学习模型的LSTM权值矩阵进行剪枝其次,采用混合精度量化方法,将不同LSTM层划分为不同的位宽,进一步有效减少权值的存储资源。结合软硬件协同设计的思想,基于Xilinx Zynq系列FPGA实现了一个LSTMMeta学习加速器。最后,通过与传统压缩方法的对比试验,这最终是由LSTM权重和神经元数量过多引起的。剪枝方法可以分为结构化剪枝和非结构化剪枝。LSTM的权重矩阵使用列作为块。如果使用结构化修剪,则块的稀疏度可以相同,并且计算单元的资源消耗是均匀的。与非结构化剪枝相比,它能更大程度地利用FPGA的并行性。在剪枝过程中,在得到初始权值矩阵后,需要生成与权值矩阵维数一致的掩码矩阵。在修剪之前,掩码矩阵是全1矩阵。对于剪枝过程,更新后的掩码矩阵的稀疏性由剪枝率决定。具体地,将权重矩阵中每列的权重值从绝对值到大排序,并根据当前修剪率找到相应的阈值[20如果权重矩阵的列中的元素小于阈值,则用于掩码矩阵中的元素的对应位置的掩码为0. 最后将原始权值矩阵乘以掩码矩阵得到剪枝后的稀疏矩阵。此外,我们需要训练原始网络模型以及掩码矩阵,以获得模型精度的基线Acc a通常情况下,模型的精度在修剪后会降低。如果一次剪枝的权值过大,网络可能会受到严重破坏,无法恢复。网络需要经过“训练”和“修剪”迭代来更新参数,以恢复原始模型的准确性。合适的剪枝频率对网络模型的精度和收敛时间尤为重要。一种逐步实现模型稀疏性的方法被纳入修剪过程。从初始稀疏度到经过几次迭代后的目标稀疏度,剪枝率逐渐减小,直到目标压缩比,稀疏度计算公式Eq.(1)如下:测试了LSTM压缩策略,LSTM元学习加速器的计算能力和能效,St=Sf+(Si-Sf)(1t−t0)3,n.对CPU和GPU进行了比较,并对硬件平台的性能进行了测试。本文的主要贡献如下:1. 我们提出了一种结合两种方法的LSTM压缩策略:权重矩阵的结构化修剪和混合精度量化;2. 结合软硬件协同的思想3. 通过对比实验,我们测试了LSTM压缩策略的压缩效果和LSTM元学习加速器的计算能力,并分析和讨论了其优势和未来的改进方向。2. 方法2.1. LSTM的权重矩阵结构化剪枝具有强大学习能力的元学习者LSTM网络通常具有过拟合和高复杂度的缺点t∈{t0,t0+t,...,t0+n<$t}( 1)其中n是掩码矩阵更新的次数,Si是初始稀疏度(通常设置为0),Sf是目标稀疏度。较大的剪枝率会加快稀疏化的速度,后期较低的剪枝率有助于提高精度。LSTM权重矩阵结构化剪枝过程如图所示。1 .一、2.2. 用于LSTM的剪枝后的稀疏矩阵的浮点权重 如果将32位浮点数转换为低精度定点数,可以在压缩模型体积和节省计算资源方面得到改善。事实上,元学习者LSTM的每一层都有效地从不同重要程度的信息中学习,以具有高效的学习能力。因此,各层对最低重量精度的要求也各不相同。使用N. Wang、J.Nie,J.Li等人ICT Express 8(2022)3223242k− 1图1.一、 权重矩阵结构化剪枝过程。单精度量化将限制量化位。本文希望通过混合精度量化的方式,为LSTM的每一层权重使用不同的量化位宽。它能将各层的权值量化到尽可能低的位宽,减少权值的冗余,提高模型的压缩率对于每一层的量化方法,我们选择了更容易在硬件中实现的对称和均匀量化,并且Eq.(2)如下:1Q(X)=(2n−1)max|X|−max|X|为X=x∈[−α,α](2)其中,Q(X)表示量化值,数值范围α由矩阵X中的最大值和最小值之差获得。混合精度量化的关键是如何确定各层权值的精度。本文采用贪婪算法来搜索最优解。 该算法首先以单精度量化为搜索起始点k比特,对模型进行无损均匀量化到一定精度。然后,在每次迭代中减少1位。同时,当模型为L层且n层已为1比特时,尝试L-N量化方案的测试,并选择测试效果最好最后,当测试效果至少低于预设下限时,停止迭代,得到混合精度模型。但是,在整个过程中,与转发计算中权重和激活的量化不同,有必要量化反向传播中的梯度[23在前向计算中,实值被映射到离散量化中心,导致量化函数不可微,并且其梯度在反向传播过程中将为0,这意味着图二. STE原则。网络不能从梯度中学习,权重不能更新。为了避免零梯度问题,本文利用直接估计器(STE)构造了量化函数梯度的近似量化。反向传播中通过估计器的功能如图所示。二、具体地,在前向计算中模拟量化过程。在反向传播中,将权值和激活值先量化为定点数,然后对有误差的浮点数进行逆量化3. FPGA的设计与实现3.1. 总体系统框架结合嵌入式平台Xilinx zynq-7020的结构特点. PS部分(ARM A9)实现主处理器的功能,PL部分(现场可编程器件的可编程逻辑资源)实现LSTM元学习硬件加速的功能。PS是PCPMWF预测系统的控制核心. ARM处理器负责实验数据的读取和预处理,调度LSTM Meta学习加速器,以及元学习器LSTM学习结果预测。PL是整个计算的核心部分。元学习优化模型中元学习者LSTM的硬件加速和实验数据的传输由现场程序员完成。它包括零值检测模块、稀疏矩阵乘加模块、激活函数模块和矩阵向量内积模块。两者通过AXI4数据总线相互通信。AXI 4-Lite总线用于传输命令和控制IP核,AXI 4- Stream总线用于传输数据。使用了有效的数据存储和访问模块VDMA,其与AXI总线接口,实现数据的高速流动。基于SoC设计的LSTM元学习加速器系统的整体框架如图所示。3.第三章。3.2. LSTM元学习加速器基于软硬件协同设计的思想,并行设计了PL端和PS端。本文采用Vivado作为硬件平台。过程中N. Wang、J.Nie,J.Li等人ICT Express 8(2022)322325表2LSTM剪枝中阈值与剪枝率的关系阈值修枝率原始模型(基线模型)–0.0111.45%0.0227.36%0.0342.16%0.0458.49%0.0565.02%图三. 整体系统框架。0.0686.35%表1硬件平台和型号。硬件平台型号CPU Intel I7-7700KGPU GTX-1070TiFPGA Xilinx Zynq7020表3不同位宽的LSTM量化精度比较溶液W1W2WF支持集查询集一1240.89190.8462B2240.89800.8614C4440.89730.8629在PL侧设计网络模型的基础上,利用驱动程序生成IP核。连接IP核后,将生成硬件比特流并刻录到FPGA。同时,将设置工作频率并配置外围接口。ZYNQ7处理系统通过AXI传输数据,LSTM加速器IP核接收数据流,计算完成后将网络输出层数据返回给处理器。 硬件电路设计如图所示。 四、4. 结果与传统的硬件平台、中央处理器(CPU)和图形处理器(GPU)相比,由于CPU采用的进程控制方式,CPU的计算能力表现较差。GPU虽然拥有丰富的计算内核,但其最大的缺点是功耗过大。FPGA作为一种半定制的硬件平台,实验平台的选择如表1所示。4.1. 压缩策略效果实验众所周知,元学习数据集分为支持集和查询集。训练集由多个数据集组成,每个数据集包括支持集和查询集,测试集由两部分相似的数据组成。在模型训练过程中,支持集和查询集的具体数据不交叉,训练支持集在元学习的内循环中寻找初始最优参数,训练查询集在元学习的外循环中寻找最优参数,并使用更新原有的最优参数,从而获得较强的学习能力。为了更全面地反映预测模型的准确性,我们使用两个数据集,支持集和查询集,测试内部和外部循环的准确性。在权值矩阵结构化剪枝中,目标稀疏度Sf的设定依赖于阈值的选取。这是由于阈值在修剪中的作用-如果权重的绝对值大于阈值,则权重将被保留,否则权重将被设置为零。该阈值是剪枝率和精度的平衡,因此选择合适的阈值有助于在保持模型精度的同时获得最佳压缩性能。用Acc来表示预测模型对实验数据描述的准确性,并将其作为选取阈值的评价指标。原始模型的支持集和查询集的Acc已知为0.9127和0.8741。在阈值逐渐增加之后,研究发现,当阈值小于0.05时,准确度没有明显下降,下降幅度约为2‰,而当阈值达到0.06时,准确度下降幅度明显增大,可达1%,如图所示。 五、进一步,探索阈值和修剪率之间的关系,如表2所示。从阈值与Acc和剪枝率的关系看,最佳阈值为0.05,此时剪枝率可达65.02%,相应地,模型压缩约为2.9倍。接下来,我们量化了稀疏矩阵的混合精度,得到了65.02%的剪枝率。这个元学习者使用一个两层LSTM结构,每个隐藏层有128个节点。在表3中,第一个LSTM权重位宽表示为W1,第二个表示为W2,激活函数表示为WF。本文采用贪婪算法来选择不同的层宽。最佳位宽是解决方案B。训练支持集和查询集的精度分别为0.8980和0.8614。在解决方案A中,我们人为地将W1从2位减少到1位。实验数据表明,模型精度明显下降。与方案C等均匀精度量化相比,混合精度量化在达到均匀精度量化相同精度的同时,有效降低了权值冗余,压缩比从8提高到13.3。N. Wang、J.Nie,J.Li等人ICT Express 8(2022)322326=见图4。 硬件电路设计。原始模型数据为70.483 MFLOPS。单位时间内处理的浮点运算数,用来衡量加速器实际能达到的算力。在执行中消耗的时间t通过调用time.time()函数记录,并通过公式计算。(三)、可以看到,LSTM加速器的计算力为31.285GOPS,其计算速度已经达到了实际应用的要求。此时,FPGA实验平台得到的平均功耗仅为2.066 W,其中系统动态功耗1.896 W,静态功耗0.17 W。硬件平台在单位功耗下的运算速度可以用来衡量加速器运行的能效,其单位通常为GOPS/W。因此,LSTM ac的能量效率图五、L S T M 剪枝中阈值与精度的关系。4.2. 加速器计算能力实验在本实验中,结合软硬件协同的思想,我们设计了一个基于FPGA的LSTM元学习加速器。在硬件层面,由于算力、能效和性能的局限性,FPGA或可替代CPU和GPU,在能耗有限的边缘计算端成为更理想的加速器实验平台。为了验证理论猜想,我们设计了实验在CPU、GPU和FPGA三个实验平台上进行对比实验。在不同平台的横向比较中,计算性能是一个重要的指标。单位时间内的浮点运算次数(FLOPS)是衡量硬件平台性能的指标。FLOPS的值可以通过浮点运算次数FLOPS与相应的执行时间t之比来获得。硬件平台的性能与FLOPS的值成正比,如等式2所示。(3):celerator硬件实验平台的功耗为15.142 GOPS/W,完全满足低功耗的实际需求。之后,我们还在CPU和GPU平台上进行浮点运算,对原始模型数据进行处理,这使得浮点运算值相同,70.483兆每秒。与上述计算过程相同。在我们的比较实验中选择的CPU运行相同的模型,FLOP也是相同的。通过计算,计算结果表明,该算法的计算速度为2.615GOPS。同时,CPU设计的热设计功耗为95 W,并不能反映实际运行压缩模式时的功耗。CPU的功耗在默认频率状态下约为67.65 W,在运行压缩模式时约为152.19 W。因此两者实际功耗相差95.54W。可以得出CPU硬件平台的能效为0.027GOPS/W。同样对于GPU,其计算速度为32.257 GOPS。同时,GPU的热设计功耗为180W,在空载状态下约为12W,在运行压缩模型时为118.6 W。因此,实际功耗为106.6 W。可以得出GPU硬件平台的能效为0.302 GOPS/W。最后,LSTM的性能参数F LO PSF LO Ps不(三)加速器、CPU和GPU平台的比较如下所示表4.为了体现测试效果,通过对比实验,采用软硬件协同的方法对压缩模型进行了加速。我们测试了LSTM元学习加速器的计算能力首先,当加速器工作频率为100 MHz时,处理5. 讨论和结论通过本文的研究可以看出,LSTM单元的权重矩阵在整个模型中消耗了大量的资源。压缩Meta学习者LSTM模型可以有效地减少参数冗余,减少N. Wang、J.Nie,J.Li等人ICT Express 8(2022)322327表4硬件平台性能参数性能参数CPUGPUFPGA计算力(GOP)2.61532.25731.285耗电量(W)95.54106.62.066能源效率(GOPs/W)0.0270.30215.142的模型参数,从而降低FPGA的功耗。因此,为LSTM提供压缩策略非常重要。实验结果表明,经过加权结构化剪枝和混合精度量化后,该模型的压缩比为38.57。通过对LSTM加速器的性能测试和与传统硬件平台对比的理论分析,数据结果显示,CPU和GPU的计算能力分别是LSTM加速器的8.36%和103.1% , 而 CPU 和 GPU 的 能 效 分 别 是 FPGA 的 0.2% 和1.99%对于本研究来说,仍有进一步优化和完善的空间。根据压缩后的稀疏矩阵的特点,可以对稀疏矩阵的存储格式进行改进,使得压缩策略仍有进一步改进的空间。而如果能将更多的功能转移到可编程逻辑端,则能效将进一步提高。CRediT作者贡献声明王念义:概念化,写作-原创草稿。聂敬:方法论。王康:形象化。Shunkang Ling:软件。竞合利益作者声明,他们没有已知的可能影响本文所报告工作确认本工作得到了国家自然科学基金(No.31860333)的资助。所有作者阅读并批准了最终手稿。引用[1] J. Nie,N. Wang,K. Wang,Y. Li,X. Chao,J. Li,磁化水和化肥滴灌对棉花养分吸收的影响,IOP会议系列:地球与环境科学,IOP,2021,第101页。697.[2] J. Yang,C.王湾,澳-地Jiang, H.宋角,澳-地孟,视觉感知使工业智能:最先进的,挑战和前景,IEEETrans. 印第安纳INF. 17(2020)2204[3] Y. Li,J. Nie,X. Chao,我们真的需要深度CNN来识别植物病害吗?Comput. 电子学。农业。(2020年)178.[4] Y. Li , J. Yang , Meta-learning baselines and database for few-shotclassificationin agriculture ,Comput. 电 子学 。农 业。 ( 2021年)182.[5] Y. Li,X. Chao,基于人工神经网络的农业连续分类,农业10(2020)178。[6] Y. Li,X. Chao,半监督少拍学习方法用于植物病害识别,植物方法(2021)17。[7] Y. Li,X. Chao,距离熵:选择信息数据的有效指标,Front。植物科学3167.[8] Y. Li , X. Chao , Toward sustainability : Trade-off between dataqualityand quantity in crop pest recognition , Front 。 植 物 科 学 12(2021)811241.[9] Y. Li,X. Chao,S. Ercisli,扰动熵:一种简单的数据质量评估方法,ICT Express(2022)。[10] R.阿基拉湾Dezfouli,软件定义的无线电:架构,最先进的,和挑战,计算。Commun. 128(2018)106-125.[11] Y.李俊,杨建,棉花害虫识别与终端实现,计算机辅助设计。电子学。农业。(2019年)169.[12] X.盛,Y. Li,M.利安角,澳-地Xu,Y.王文,耦合干扰对阵列式涡流位移测量的影响,硕士论文。Eval. 74(2016)1675-1683。[13] J. Nie,N. Wang,J. Li,et al.,物理元学习预测基于LSTM的磁化水和肥料的化学性质,Plant Methods 17(1)(2021)1-13。[14] X.曹湖,加-地张,基于数据增强的少镜头不平衡分类,多媒体系统。(2021年)。[15] S. Anwar,K. Hwang,W. Sung,深度卷积神经网络的结构化修剪,ACM J. Emerg。技术计算。系统(JETC)13(3)(2017)1-18。[16] L. J.F.贝尔蒂内托Henriques,P.H.S. Torr等人,Meta-learning withdifferentiable closed-form solvers,2018,arXiv preprint arXiv:1805.08136.[17] J. Nie,Y. Li,S.她,X。赵,阵列涡流检测的磁屏蔽分析,J。玛格24(2019)328[18] S. Wang,P. Lin,R. Hu等人,在FPGA上使用结构化修剪方法加速LSTM,IEEE Access 7(2019)62930-62937。[19] Z. Que,E. Wang,U. Marikar等人,加速引力波实验的递归神经网络,在:2021年IEEE第32届国际会议专用系统,架构和处理器(ASAP),IEEE,2021年,pp。117-124[20] Y.李俊,杨俊,温俊,基于熵的冗余分析与信息筛选,Digit。Commun. 网络(2021年)。[21] N. Goharian,A. Jain,Q.孙,稀疏矩阵检索算法的比较分析,计算机2(2003)0-4。[22] J. Yang,X. Guo,Y. Li等人,智能农业中的少数学习调查:发展,应用和挑战,植物方法18(1)(2022)1-12。[23] F.朱河,巴西-地龚氏F. Yu等人,Towards unified INT8 training forconvolutionalneuralnetwork , ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition,IEEE/CVF,2020,pp. 1969 -1979年。[24] A.波利诺河帕斯卡努湾Alistarh,通过蒸馏和量化的模型压缩,2018。[25] Y.杨,Z. Zhang,W. Mao等人,基于小样本学习的雷达目标识别,多媒体系统。(2021)1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功