嵌入式设备中的卷积神经网络计算的更快和更高效实现

199 浏览量更新于2024-01-06 收藏 995KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊36（2022）101153最小符号数近似在嵌入式设备上实现更快、更高效的卷积神经网络计算Kh Shahdong Zamana，1，Mamun Bin Ibne Reaza，1，2，Ahmad Ashrif Abu Bakara，3，Mohammad Arif Sobhan Bhuiyanb，4岁，Norhana Arsada，5岁，Mohd Hadri Hafiz Bin Mokhtara，6岁，Sawal Hamid Md Alia，7岁a马来西亚雪兰莪州邦宜市马来西亚国民大学电气、电子和系统工程系b马来西亚雪兰莪州雪邦厦门大学电子电气工程系阿提奇莱因福奥文章历史记录：收到2021年2022年2月6日修订2022年3月28日接受2022年4月16日网上发售保留字：卷积神经网络加速器近似计算有符号数字计算低复杂度乘法器A B S T R A C T在智能物联网时代，具有低计算开销的卷积神经网络（CNN）模型对于资源受限的嵌入式设备中的低延迟应用至关重要。乘法运算的性能和效率在加速和优化CNN计算方面起着至关重要的作用。在本文中，我们提出了MA4C技术，该技术通过将预训练的CNN参数转换为近似的最小符号数（MSD）表示来减少CNN计算开销。与数字的二进制表示相比，MSD表示平均包含更少的非零数字。所提出的方案近似的MSD表示，只考虑到一个指定的最高有效位数。MA4C技术通过减少部分和的数量来降低乘法器的计算复杂度。提出的MSD近似应用于各种DNN模型，并针对不同的数据集、不同的CNN深度和网络配置分析了它们的性能。我们提出的方法在FPGA上的实现减少了逻辑电路和乘法器延迟分别比8位Booth乘法器低4.2倍和1.2倍适用于大多数CNN模型。©2022 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍卷积神经网络（CNN）是最重要的深度学习（DL）算法之一，它已经实现了许多人工智能（AI）应用，如图像分类，对象检测，文档分析，机器人自动化，故障检测，疾病诊断等[1然而，CNN需要大量的计算密集型卷积运算，这也增加了内存带宽和存储需求。*通讯作者。电子邮件地址：p98738@siswa.ukm.edu.my（K.S.Zaman），mamun@ukm.edu.我的（M.B.I.Reaz）、ashrif@ukm.edu.my（A.A.A.Bakar），arifsobhan.bhuiyan@xmu.edu.我的（ M.A.S. Bhuiyan ）， noa@ukm.edu.my （ N.Arsad ）， hadri@ukm.edu.my （ MohdHadriHafizBinMokhtar ），sawal@ukm.edu.my（S.H.Md Ali）。由Karabuk大学负责进行同行审查1Orcid：0000-0002-0636-920X。2Orcid：0000-0002-0459-0365。3Orcid：0000-0002-9060-0346。4Orcid：0000-0003-0772-0556。5Orcid：0000-0003-4543-8383。6Orcid：0000-0001-5307-073X。7Orcid：0000-0002-4819-863X。的部分。在大多数DL应用中，训练通常在高性能GPU或基于云的解决方案（包括FPGA、ASIC或专用GPU服务器）上执行。GPU通过并行化矩阵运算、减少外部存储器访问和执行更快的低精度算术运算来加速CNN计算[6]。而ASIC和FPGA则针对特定的DL算法及其各自的计算图进行定制，以获得比现代GPU更好的效率至于推理，计算通常在个人计算机或边缘设备上执行，这取决于DL应用程序的最终用户（图1）。①的人。随着工业4.0、农业4.0、智能家居、智能健康应用和物联网（IoT）基础设施中的其他智能解决方案的出现，对具有机器学习功能的低功耗设备的需求比以往任何时候都多[7]。然而，大多数物联网传感器采用的云解决方案容易受到通信延迟、网络拥塞和隐私问题的影响[8，9]。研究人员已经开发了各种方法来优化和减少CNN的计算，方法是使用权重降低技术，如修剪、量化、知识蒸馏、权重分解和其他压缩方法[10，11]。更少的网络参数意味着更少的矩阵https://doi.org/10.1016/j.jestch.2022.1011532215-0986/©2022 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestchKh Shahrif Zaman，Mamun Bin Ibne Reaz，Ahmad Ashrif Abu Bakar等人工程科学与技术，国际期刊36（2022）1011532图1.一、对于智能边缘设备，神经网络通常在高性能硬件上训练预训练模型通过修剪、量化或其他压缩方法等技术针对性能和效率进行优化优化后的模型被部署到边缘设备，其处理器可以在有限的功率和硬件面积上有效地执行推理。需要执行乘法。这些乘法主要由CPU上的32位浮点（FP32）乘法器、GPU上的低精度乘法器或ASIC或FPGA上设计的专用乘法器执行[12，13]。在一般情况下，使用更高的位宽允许更高的精度计算。而较低的位宽使高效和低资源的硬件实现。然而，不同数据格式和位宽的计算因此，减少每次乘法计算的部分乘积的数量可以显着改善整体CNN计算的延迟和功耗[14，15]。权重表示中的非零数字的数量与MAC运算中要计算的部分和的数量直接相关。减少非零数字的一种方法是采用带符号数字表示。规范有符号数位（CSD）[16]表示是一个三进制系统，由于其两个重要的特征，一些研究人员对其进行了探索。首先，一个数的CSD表示比它的二进制等价物包含更少的非零数字。其次，CSD表示中的相邻数字不能都是非零数字。最小有符号数位[17，18]表示是另一种三进制系统，它保证非零数位的个数与CSD相等.然而，与CSD表示不同，MSD可以包含多个相邻的非零数字。MSD优于CSD的一个主要优点是将二进制数转换为相应的三进制表示。转换到CSD是从右到左[最低有效位（LSB）到最高有效位（MSB）]计算的，而MSD是从左到右（MSB到LSB）完成的。这对于可缩放近似尤其重要，其中转换所有LSB可能不需要获得具有预设数量的非零位的最接近近似。虽然CSD表示已被用于几项研究的近似方案，据我们所知，CNN权重的MSD近似的性能优势还有待探索。在这篇文章中，提出了一个权重近似方案，在低功耗ASIC和FPGA上有效实现预训练的CNN。本文的贡献可以总结如下：提出了一种基于最小符号数（MSD）的近似技术，降低了CNN的计算复杂度. 近似值减少了预训练CNN模型中权重的MSD表示。这有助于降低乘法运算要计算的部分乘积的数量。所提出的方法在不同形状、大小和训练数据集的各种流行的预训练 CNN 模型上进行了演示实验已经在预先训练的 LeNet ，MobileNet和EfficientNets上进行。MNIST、CIFAR-10、CIFAR-100和ImageNet-v2用于测试优化的模型。基于我们的实验结果，建议了一些应用所提出的近似方案的策略，以在低功耗设备上扩展和加速CNN。本文的其余部分组织如下：第2节介绍了CNN的最新权重近似技术;第3提供了MSD表示的一些背景，然后描述了基于MSD的拟议框架;第4节介绍了MSD近似的实验结果和相应的分析;第5节总结了这项工作，并提出了一些结论性意见。2. 相关工作最近，研究人员正在探索近似计算，以实现具有有限电路面积和功耗要求的设备的可扩展设计。这对CNN特别有利，因为它们可以容忍来自低位宽度计算的略微不准确的结果[19减少位宽量化是CNN最常用的近似技术之一。Gysel等人。[22]实验了动态定点表示，minifloat表示和基于移位的乘法的近似方案。动态固定点使用Q格式表示，对于CNN的不同部分具有不同的整数和分数位。他们的实验结果表明，动态定点近似在低位宽的情况下实现了最好的CNN性能，尽管它需要比常规定点乘法器更多的电路面积。minifloat数字格式使用类似IEEE-754标准的表示，但位数更少。由于指数的数据位不足以覆盖值的范围，因此minifloat近似的精度在低位宽时会急剧下降。基于移位的乘法方案使用一个符号位并且仅使用最高有效位（MSB）来近似实际值的幅度。这种数据方案导致了SIM卡最有效的实现●●●Kh Shahrif Zaman，Mamun Bin Ibne Reaz，Ahmad Ashrif Abu Bakar等人工程科学与技术，国际期刊36（2022）1011533-××-×-ple CNN（如LeNet），但更深的CNN存在严重的准确性此外，所有这些近似方案都需要微调，以恢复一些丢失的精度。对于需要可扩展性和可重新配置性以利用低功耗加速器中的性能效率权衡的方法来说，针对较低量化级别对CNN进行完全重新训练通常是不方便的。类似于动态固定点，Köster等人。[23]提出了Flexpoint格式，它共享一个5位指数和一个16 位尾数，用于每个层的权重和激活。Flexpoint方法在准确性方面与ImageNet分类上的FP32实现不相上下。最近，Yang等人[24]提出了一种量化框架，将所有参数（权重更新参数除外）和数据路径（包括权重，梯度，误差和批量归一化参数）量化为仅8位。这显着降低了逻辑电路面积的要求，因为大多数算术运算可以用8位加法器和乘法器执行。他们的量化ResNet模型在ImageNet数据集上只损失了4%到7%的top-1准确度。为了探索超越二进制和浮点表示的限制，研究人员尝试了非传统的数字表示格式来加速CNN。Riaz等人[25]提出使用规范符号数字表示来通过限制MSB的数量来近似预训练CNN的滤波器权重。他们的方法在FPGA的逻辑电路减少方面实现了高达77%的减少，但在ImageNet数据上训练的VGG-16模型的Top-1精度下降总而言之，大多数研究人员专注于减少比特数来表示CNN的各种参数然而，很少有研究者利用这样的事实，即一部分计算浪费在零比特权表示的乘-累加（MAC）运算从零比特计算的部分和因此，为了在低功耗物联网传感器和智能设备上实现高效的神经网络计算，需要一个框架来近似优化现有的预训练CNN模型，并扩展模型，以利用目标设备的模型准确性，功率效率和芯片面积的权衡3. 该方法在本节中，将介绍MSD表示的一些基本原理，然后分析MSD近似误差。最后，所提出的MA4C算法进行了必要的详细说明。3.1. MSD表示及其主要特征最小符号数位（MSD）[18]表示使用值{ 1，0，+1}来表示二进制数。MSD重新编码算法总是导致给定二进制数的最小数量的非零数字。将无符号二进制数转换为MSD表示可以使用表1中的查找表。例如，集Lin等人[26]提出了FloatSD表示法，基于规范有符号数字的有符号数字表示无符号二进制数101101112是11001-001-MSD （FloatSD表示包含一个前导8位指数，后面是8个3位尾数组。因此，32位数据可以容纳8个不同的权重值与一个共享的指数。与FP32算术逻辑电路相比，使用FloatSD表示的ASIC设计消耗的电路面积减少了7.8，功耗提高了13.5，精度损失最小研究人员使用二进制{0，1}和三进制权重来开发低位宽计算的极端情况{1，0，1}。Hubara等人。[27]提出了二值化神经网络（BNN），它将权重和激活量化为仅一位。然而，BNN模型的准确性比使用ImageNet数据集的FP32版本AlexNet低13.7%。XNOR-Net[28]增加了BNN的确定性二值化方法，即逐层缩放项。与BNN相比，与缩放项一起使用的额外FP 32乘法将XNOR-Net精度提高了约6%。Li等人。[29]表明他们的三重权重网络（TWN）的性能明显优于BNN。TWN实现了多达32个模型的压缩，而在ImageNet数据集上训练的AlexNet上只损失了3%的准确率。虽然二进制和三进制网络中的推理速度明显更快，但它们需要复杂的训练/再训练技术来实现接近其全精度对应物的精度。表1可转换为二进制到MSD表示。改编自[18]。用于表示“1”）。在此示例中，非零的从二进制的六个减少到MSD表示的四个。这相当于对于该二进制数的五次移位和加法运算，而对于其相应的MSD表示为三次。因此，这种表示对于减少有用的部分乘积的数量是有用的，这相当于非零数字的数量。在预训练CNN的情况下，可以通过将其静态权重转换一次并在低功耗硬件上实现它们来利用基本部分乘积的数量的减少，以进行有效的推理。3.2. MSD中的逼近及其误差分析位宽为w的带符号定点二进制数的MSD表示需要k个非零数字（其中kw）。因此，使用此MSD数的MAC运算将需要k个部分乘积。由于MSD是一个三进制数系统，MSD的每个然而，对于所提出的算法，所需的位宽减少到一个紧凑的表示。该表示使用w位来表示零和非零数字的位置，并且使用附加的k位来表示非零数字的相应符号由于CNN容忍小的近似值，因此MSD表示的部分和的数量甚至可以减少到二进制MSDxixi-1xi-2ciyici-10 0 × 0 0 00 1 0 0 0 00 1 1 0 1 11 0 × 0 1 001×11-110 011-010110111×101Kh Shahrif Zaman，Mamun Bin Ibne Reaz，Ahmad Ashrif Abu Bakar等人工程科学与技术，国际期刊36（2022）1011534因此，通过限制最高有效非零数字的数量。图2显示了当所有可能的8位有符号二进制数被转换时的归一化近似误差分布到它们的MSD表示，允许k个非零数字。的最大近似错误产生k= 1、2和3时，相对于其实际值分别为2.3%、9.1%和33.3%。在二进制数的情况下，截断LSB数字总是会导致低估实际值。而在MSD表示中截断LSB可能会低估或高估实际值。这对于MAC操作是有益的，其中累积的部分和中的误差可以彼此平衡。图3示出了当k= 1、2和3时在其MSD表示中引入图像中的近似噪声。可以观察到，即使是单个数字也可以保留照片的大多数特征，例如边缘，梯度和形状。在转换速度方面，MSD我们实现了一个简单的基于滑动窗口的Python脚本，将10，000个16位二进制数转换为MSD和CSD，k=1，2和3。它们的转换速度在图中进行了比较。四、为了获得CSD近似值，必须在丢弃较低有效位之前计算所有非零数字然而，在MSD近似中，一旦获得预定义的有效位数，图四、CSD和MSD表示的转换时间比较使用Python脚本将10，000个权重转换为各自的带符号数字。3.3. MA4C技术CNN 的 MSD 近似（ MA4C ）如图所示。五、我们使用了TensorFlow[30]和Pytorch[31]，这是构建和训练CNN最流行的两个库。这些库被优化以使用FP32表示来训练滤波器权重。在测试数据集达到所需的精度水平后，提取训练的权重并转换为Q格式的定点数。整数比特（m）和分数比特（n）的数量通过扫描训练权重的范围来确定。这是重要的一步，因为选择图二.从所有可能的8位有符号二进制数到有限非零位k= 1、2和3的MSD表示的相对逼近误差分布。图三.当图像的像素值（左上）转换为k= 1、2和3的MSD表示时的近似噪声。图五. MA4C技术Kh Shahrif Zaman，Mamun Bin Ibne Reaz，Ahmad Ashrif Abu Bakar等人工程科学与技术，国际期刊36（2022）1011535×× × × ××分数位确定推理模型的精度为了确定推理模型的精度，我们采用两种不同的策略：MA 4C-s（静态）：该方法扫描整个权重范围，以确定表示所有权重数据所需的m的最小值。由于卷积层之后通常是批量归一化层，因此数据的分布和偏差是标准化的。因此，每个CNN层中的滤波器权重范围几乎相同。当使用单个Q（m，n）格式来表示所有数据时，这是有益的，因为这将允许最佳地使用可用的位宽。MA 4C-d（动态）：此方法对权重值执行逐层扫描，以确定m的最佳值和n，而不是一次扫描所有权重。尽管权重值进行了归一化，但一些具有众多类别的复杂CNN可能包含具有相当不同范围值的层。使用静态MA4C方法可能导致MSD表示的低效利用，因为具有较小范围的一些层将仅利用几个比特，从而导致较低的精度。这种动态MA4C方法通过使用逐层精确缩放来解决这个问题。然而，可能需要额外的存储器和电路来存储每一层的m值并调整相应的算术运算。最后，使用从右到左算法并通过限制最高有效非零数字的最大数目（k），将定点数近似为CSD表示。总位宽（W），包括符号位和非零位置位，为对于CSD表示，设置为16位或32位。即使使用不同的位宽，非零数字的数量也受到k的限制。因此，Q格式的位宽（m + n +1）是通过减去MSD表示（W-k）所需的额外位来确定的，如图11所示。六、MA4C技术通过将预训练的FP32权重转换为MSD表示来降低嵌入式系统上CNN模型的计算复杂度在指定参数W、k和精度选择模式（静态/动态）后，得到了具有MSD值的权矩阵。到目前为止，使用通用计算机生成的这些矩阵然后被部署到嵌入式系统，如FPGA或ASIC。对于推理，权重保持不变，而激活被计算并转发到下一层。嵌入式系统中的自定义MSD乘法器将计算MSD权重值和Q格式激活的乘积。结果将作为Q格式编号转发到下一层乘法器中部分乘积的数量与见图6。MA4C技术中使用的数字表示系统的比较。k，可根据模型精度要求进行调整。4. 结果和讨论在本节中，我们提供了MA4C技术的评估结果所提出的方法适用于三种不同的CNN 架构： LeNet[32] ，MobileNet-v2[33]和Effi-cientNet[34]。为了验证MA4C技术在嵌入式系统上的有效性，我们在FPGA上实现了LeNet模型。然后，我们在三个不同的数据集上训练了三种不同的 MobileNet-v2 模型最后，我们使用可扩展的EfficientNet架构来评估算法在不同规模的模型上的有效性。我们比较了所有近似模型的精度与各自的FP32模型。4.1. MC4A在FPGA我们通过利用MA4C近似技术在FPGA上实现了一个预训练的LeNet[32]模型LeNet模型是在MNIST数据集上训练的[35]。该模型包含3，246个参数，这些参数被训练用于预测手写图像中的数字（0到9）。为了进行推理，将静态权值转换为MSD表示，并在FPGA上合成特殊的乘法器电路对三种不同的k值进行了近似计算。常数乘法器设计在Altera DE4 FPGA开发板上使用Quartus Prime软件进行综合。我们将所提出设计的面积成本、延迟、精度权衡与常用精确乘法器和其他三种最先进的近似乘法器的开源实现进行了比较：ALM-BM 2 [36]、LOBO 10 -12/6 [37]和ALM-SOA 10 [38]。表2中报告了它们的合成结果以及来自权重近似的归一化平均误差距离（NMED）。从所有可能的16位输入值到整数乘法器的广泛模拟中估计误差。通过所有绝对误差的平均值除以乘法器的最大输出计算NMED值在资源使用和延迟方面，MA4C近似对于k= 3、2和1，乘法器分别比8位Booth乘法器小4.21、9.88和85.67，并且快1.21、1.39和2.25这些改进主要是由于MSD表示为基础的操作所需的加法器和移位器较少应该强调的是，MA4C技术将二进制权重转换为MSD表示，这允许设计面积有效和低延迟常数乘法器。因此，这些MSD乘数不直接与成熟的乘数竞争。然而，任何最先进的乘法器都可以定制为对MSD表示进行操作，以产生更少的部分和。在LeNet的情况下，位宽W被设置为16位。表3显示了近似LeNet模型的推断结果。可以看出，用于生成部分和的非零数字的数量下降相当显着时，通过MA4C技术的数量近似。应当注意，仅考虑尾数组中的非零位用于比较，因为仅这23位有助于乘法运算。对于具有2和3个非零数字（k）的MSD近似，精度下降几乎可以忽略不计。即使k= 1，近似LeNet模型的准确度也仅下降了1.12%。因此，使用MA4C技术，可以设计近似的LeNet模型，该模型仅依赖于移位和相加运算，精度损失可以忽略不计。在这里，动态精度选择（M4AC-d）提供了比静态精度更高的精度●●Kh Shahrif Zaman，Mamun Bin Ibne Reaz，Ahmad Ashrif Abu Bakar等人工程科学与技术，国际期刊36（2022）1011536表2各种乘法器的综合结果比较及误差分析表3LeNet模型精度与MA4C技术不同设置的比较。乘法器逻辑元件延迟北地中海权重表示模型精度非零位总数展位8位25725.27纳秒-基线FP32百分之九十六点八七43 301人 *展位16位90728.33纳秒-MA4C-sk = 3百分之九十六点七二6,542FP32106836.38纳秒-K= 2百分之九十六点零九5,518MA4C，k= 36120.87纳秒0.2k= 1百分之九十五点七四3,034MA4C，k= 22618.26纳秒1.8MA4C，k= 1311.25纳秒10.6MA4C-dk= 3百分之九十六点七二6,532HLR-BM 2[36]47724.47纳秒0.7K= 2百分之九十六点一九5,518LOBO 10 -12/6[37]36023.69纳秒1.3k= 1百分之九十五点九四3,034ALM-SOA10[38]297 33.97ns 3.5*仅考虑尾数位。比较对应物（MA 4C-s），因为所有层中的值的范围相同。4.2. 在不同数据集MobileNet-v2[33]是一个紧凑的CNN架构，是为低资源硬件开发的。我们使用的三个MobileNet-v2模型中的每一个都包含53个层和大约220万个参数。这些模型分别在CIFAR-10，CIFAR-100 [39]和ImageNet [40]数据集上进行训练。CIFAR-10是一个相对简单的数据集，包含10类图像数据。CIFAR-100是一个更大的数据集，类似于CIFAR-10，但图像被分为100个不同的类别。ImageNet是一个庞大的图像数据集，包含1000个不同的图像识别类。数据集类别的数量和输入图像的维度有助于训练模型的复杂性表4在MobileNet-v2上使用不同数据集进行MA 4C近似分析。MobileNet-v2在CIFAR-10基线FP32准确度：93.49%（前1）99.79%（前5）然而，对于我们的ImageNet预训练模型，我们使用ImageNet- v2[41]数据集来评估模型的准确性。ImageNet-v2是一个较小的测试数据集，每个类包含10个图像，编译该数据集是为了测试模型的通用性。此外，较小的数据集允许更快地测试不同的近似模型。当在不同数据集上训练时，MA4C近似方案如何影响CNN架构的分析结果如表4所示。一般来说，数据集的复杂性会影响模型中采用的CNN架构这也适用于此外，可以观察到近似误差对更复杂数据集（如ImageNet）的准确性k = 2的MA 4C近似可以为CIFAR-10和CIFAR-100模型提供足够的精度。然而，ImageNet模型的MA4C近似需要至少k= 3个非零数字模型权重参数模型准确度，具有各自的近似权重表示表示Top-1Top-5W= 32W= 16W= 32W= 16M4AC-sk= 3百分之九十三点四四百分之九十三点三九百分之九十九点七七百分之九十九点七八K= 2百分之九十一点三五90.44%百分之九十九点五四百分之九十九点五六k= 152.35%44.60%百分之九十点六九89.20%M4AC-dk= 3百分之九十三点三九百分之九十三点三九百分之九十九点七七百分之九十九点七八K= 292.61%90.44%百分之九十九点六九百分之九十九点五六k= 148.54%47.88%89.71%88.82%MobileNet-v2在CIFAR-100基线FP 32准确度：74.29%（Top-1）93.03%（Top-5）模型重量参数具有各自近似权重表示的MobileNet-v2在ImageNet基线FP 32准确度：51.79%（Top-1）75.42%（Top-5）模型重量参数具有各自近似权重表示的表示Top-1Top-5W= 32W= 16W= 32W= 16M4AC-sk= 374.24%百分之七十点九八百分之九十三百分之九十点九六K= 271.34%58.73%91.45%82.49%k= 1百分之十四点二三6.60%20.29%百分之十八点四四M4AC-dk= 374.19%百分之七十三点八七百分之九十三92.70%K= 271.21%56.83%92.04%91.37%k= 1百分之十五点九二6.88%25.36%20.29%表示Top-1Top-5W= 32W= 16W= 32W= 16M4AC-sk= 349.19%25.30%73.01%50.02%K= 2百分之十一点一三4.14%30.42%百分之十三点六二k= 1百分之零点一三0.10%3.10%0.57%M4AC-dk= 348.01%27.67%72.51%百分之四十九点八九K= 2百分之十点九六2.74%33.15%7.60%k= 10.10%0.07%0.50%0.45%Kh Shahrif Zaman，Mamun Bin Ibne Reaz，Ahmad Ashrif Abu Bakar等人工程科学与技术，国际期刊36（2022）1011537表5不同模型大小的EfficientNet上的MA4C近似分析EfficientNet-B 0在ImageNet上预训练（使用ImageNet v2测试）基线FP32准确度：59.71%（前1）82.14%（前5）模型权重参数模型准确度，具有各自的近似权重表示表示Top-1Top-5W= 32W= 16W= 32W= 16M4AC-sk= 359.59%56.31%82.00%79.79%K= 2百分之四十八点九九45.58%72.57%68.82%k= 10.15%0.20%0.67%0.62%M4AC-dk= 359.54%58.30%82.02%81.68%K= 2百分之五十点五五50.05%74.72%73.83%k= 1百分之零点一四0.15%0.66%0.77%EfficientNet-B4在ImageNet上预训练（使用ImageNet v2测试）基线FP 32准确度：69.93%（Top-1）88.55%（Top-5）模型重量参数具有各自近似权重表示的EfficientNet-B7在ImageNet上预训练（使用ImageNet v2测试）基线FP 32准确度：72.79%（Top-1）90.87%（Top-5）模型重量参数具有各自近似权重表示的以保持相当的准确性。平均而言，MA 4C-d技术的精度略高于MA4C-s技术。这可以通过每个模型中类似的逐层数据范围来解释。可以预见的是，使用更大的位宽（W）进行近似也会导致模型精度略高，因为更多的位可用于容纳更大范围的值。4.3. 在不同尺寸的模型通常，增加 CNN 的参数数量可以使其实现更好的准确性。EfficientNets[34]是一组具有相同底层架构的CNN模型，在所有维度上均匀缩放。为了评估我们的方法在不同大小的CNN模型上的有效性，我们对EfficientNet模型的三种变体应用了MA4C近似。这些模型是EfficientNet-B 0、EfficientNet-B4和EfficientNet-B7，分别包含530万、190万和660万个参数。这些模型在ImageNet数据集上进行训练，并使用ImageNet v2数据集进行测试。结果总结见表5。对于所有三种模型，k= 3的MA4C近似和W= 32显示几乎没有精度损失。然而，仅使用单个非零位（k= 1）的所提出的方法无法近似在这样复杂的数据集上训练的模型有趣的是，对于k为3的较大模型，准确性的下降会减少在具有较少位的较大模型上，近似精度下降也较小宽度这意味着MA4C技术在更大的模型上更有效，使得即使当权重用更少的比特表示时4.4. 对FPGA的为了在FPGA上有效地实现CNN，逻辑元件的数量必须加以考虑。MA4C近似技术在这方面提供了几个好处。MA4C技术的主要目标是减少MAC操作所需的部分和的数量，这又减少了计算所需根据我们的实验结果，大多数近似的CNN模型提供了与其全精度对应模型几乎相同的准确度，最大允许非零数字设置为3（k= 3）。为了进一步减少计算量，与近似值相关的精度权衡如图所示。7.第一次会议。对于简单的分类或预测应用（例如，数字识别与LeNet ），MA4C近似与k= 1可以提供显着减少FPGA逻辑元件，计算复杂性，推理延迟，和存储器的要求，以最小的精度损失。然而，对于大多数CNN模型，MA4C近似的有效性取决于几个因素，例如数据集维度，预测类，模型架构，表示Top-1Top-5W= 32W= 16W= 32W= 16M4AC-sk= 369.66%68.43%88.33%88.03%K= 267.61%67.62%87.38%87.38%k= 12.30%5.38%5.89%百分之十四点三M4AC-dk= 369.64%69.30%88.37%88.41%K= 266.46%67.72%86.89%87.36%k= 12.24%6.83%5.72%百分之十五点九表示Top-1Top-5W= 32W= 16W= 32W= 16M4AC-sk= 372.85%71.97%百分之九十点九一百分之九十点二六K= 272.11%70.38%百分之九十点五七89.47%k= 1百分之二十点九二百分之二十点四五40.28%38.14%M4AC-dk= 372.78%72.90%百分之九十点九二91.07%K= 272.03%72.63%百分之九十点五五90.80%k= 1百分之二十点二五百分之十五点五二39.29%30.28%Kh Shahrif Zaman，Mamun Bin Ibne Reaz，Ahmad Ashrif Abu Bakar等人工程科学与技术，国际期刊36（2022）1011538××见图7。不同k值的MA4C近似的精度权衡总结。所提出的方法在较大的模型和不太复杂的数据集上效果更好。数据位宽（W）对这种近似方法的影响可以忽略不计。以及权重参数的数量。在这种情况下，使用不同的MA 4C参数（k、W和动态/静态模式）评估近似模型的FPGA资源利用率和模型精度权衡，可以帮助为目标应用选择合适的模型一般来说，大型CNN模型可以容忍k和W较小的近似。然而，当k和W的值较小时，紧凑模型更快地失去准确性。动态精度选择可能有助于恢复一些丢失的精度，但实施将需要额外的控制逻辑来处理固定格式表示的多精度数据。FPGA和其他资源受限设备上的算术单元通常使用定点表示而不是浮点数。因此，在选择适当的Q格式数字表示Q（m，n）时必须小心，以避免MAC操作期间的上溢并使下溢最小化。这可以通过仔细修改用于输入数据和激活的标准化的学习参数来实现，使得权重分布范围始终保持在Q格式限制内。为了避免意外的数据溢出乘法运算，- ation，乘法器可以编程饱和的结果，这可能会花费额外的逻辑电路。5. 结论在这篇文章中，探索了最小符号数字表示（MSD）在低资源设备上加速卷积提出了一种用于CNN的MSD近似技术（MA4C），通过减少乘法运算所需的部分和的数量来减少CNN计算MA4C方案可以在预训练的CNN模型上应用各种近似级别，以便可以为目标硬件定制近似模型所提出的方法特别适用于硬件，可以利用位级乘法运算跳过。MA 4C技术在LeNet、MobileNet- v2和EfficientNet上的评估结果证明了该方案在具有各种形状、大小和训练数据集的CNN模型上的有效性和权衡结果表明，大多数CNN模型可以近似的权重包含三个非零的数字在可以忽略不计的准确性损失。与8位Booth乘法器相比，具有近似权重的常数乘法器的FPGA实现在逻辑面积上减少了4.2，并且速度提高了1.2所提出的方法可以应用于各种CNN模型部署低资源设备上的可扩展近似模型，例如物联网传感器和移动设备。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文中报告的工作。确认这项工作由马来西亚高等教育部（MOHE）通过基础研究资助计划（FRGS）在马来西亚国立大学研究型大学资助（FRGS/1/2021/TK 0/UKM/01/4）下提供财政支持。（资助号：GUP-2021-019、TAP-K017701 、 DPK- 2021-001 ）和马来西亚厦门大学（项目代码：XMUMRF/2021-C8/IECE/0021）。引用[1] A.主题，M。Russo，通过深度学习网络基于EEG特征图的情感识别，Eng. Sci。Technol.24（2021）1442-1454，https：//doi.org/10.1016/j.jestch.2021.03.012。[2] C. Li，Y. Chen ，Y. 尚，工业大数据在智能制造决策中的应用综述，Eng. Sci.Technol. 29（2022）101021。[3] A. M.T. 侯赛因伊斯兰教，理学硕士伊斯兰教， M.E.H. Chowdhury ， A.F.Almutairi，Q.A. Razouqi，N. Misran，A YOLOv3 deep neural network model todetect brain tumor in portable electromagnetic imaging system，IEEE Access 9（2021）82647https://doi.org/10.1109/ACCESS.2021.3086624[4] M.E. H Chowdhury，T. Rahman，A.汉达卡尔河Mazhar，M.A. Kadir，Z. BinMahbub，K.R.伊斯兰教，理学硕士汗，A. Iqbal，N. Al Emadi，M.B.I.雷兹，M.T.伊斯兰教，人工智能可以帮助筛查病毒和 COVID-19 肺炎吗？ IEEE Access 8（2020）132665[5] M.E. H Chowdhury，T.Rahman，A.Khandakar，M.A.Ayari，A.U.Khan，M.S.可汗，N. Al-Emadi，M.B.I.雷兹，M.T.伊斯兰教，S.H.M.阿里，使用深度学习技术进行自动可靠的https://doi.org/10.3390/agriengineering3020020[6] D. Li ，X. Chen ，M. Becchi ，Z. Zong，Evaluating the energy efficiency ofdeep convolutional neural networks on CPU and GPU ， in ： Proceedings-2016 IEEE International Conferences on Big Data and Cloud Computing ，BDCloud 2016 ， Social Comput

下载后可阅读完整内容，剩余1页未读，立即下载