没有合适的资源?快使用搜索试试~ 我知道了~
3552HardNet:一种低内存流量网络赵平1、2高朝阳1阮玉山1黄建祥1林永隆11国立清华大学2密歇根大学pingchao@umich.edu{chaoyangkao923,esunxd,james128333}gmail.comylin@cs.nthu.edu.tw摘要最先进的神经网络架构,如ResNet、MobileNet和DenseNet,在低MAC和小模型大小的计算器上实现了出色的精度。然而,这些度量对于预测推断时间可能不准确。我们建议,访问中间特征图的内存我们提出了一个谐波密集连接网络,以实现高效率的低MAC和内 存 流 量 。 与 FC-DenseNet-103 、 DenseNet-264 、ResNet-50、ResNet-152和SSD-VGG相比,新网络的推理时间分别减少了35%、36%、30%、32%和45%我们使用包括Nvidia profiler和ARM Scale-Sim在内的工具来测量内存流量,并验证推理延迟确实与内存流量消耗成正比,我们的结论是,在为边缘的高分辨率应用设计神经网络1. 介绍卷积神经网络(CNN)一直流行于计算机视觉任务,因为计算能力的爆炸性增长使得在合理的时间内训练AlexNet [22,23],VGG-net [32]和Inception [34]等复杂网络成为为了将这些迷人的研究成果投入大规模使用,在边缘设备上执行神经网络推理是不可避免的。然而,边缘计算依赖于有限的计算能力和电池容量。因此,如何在边缘处提高神经网络推理的计算效率和降低功耗减少模型大小(模型的参数或权重的数量)是提高计算和能量效率的热门研究主题,因为减少的模型大小可以减少计算量。模型大小通常意味着更少的MAC(乘法累加操作或浮点 操 作 的 数 量 ) 和 更 少 的 动 态 随 机 存 取 存 储 器(DRAM)业务,用于读取和写入模型参数和特征图。一些研究已经转向最大化的精度参数比。最先进的网络,如残差网络(ResNets)[16],SqueezeNets[20]和密集连接网络(DenseNets)[18],已经实现了高参数效率,在保持高精度的同时大大降低了模型大小。模型大小可以通过压缩进一步减小。Han等人[15]表明,从DRAM加载的大量浮点权重可能比算术运算消耗更多的功率。他们的深度压缩算法采用权重修剪和量化来显著降低模型大小和功耗。除了功耗之外,由于有限的DRAM带宽,DRAM访问还可以在推断时间方面主导系统性能由于我们已经观察到CNN中所有中间特征图的大小总和可以比其模型大小大十到一百倍,特别是对于高分辨率任务,例如使用全卷积网络的语义分割[27],我们建议减少DRAM对特征图的访问可能会在某些情况下导致加速。缩小特征图的大小是减少流量的直接方法。虽然只有少数论文涉及特征图的无损压缩,但在模型精度操作和近似的研究中,特征图的有损压缩已经得到了深入研究[8,11,14,28,29]。在这些工作中使用的量化模型压缩通常可以自动减少特征图的大小。然而,像其他有损压缩方法,如二次采样,他们通常惩罚精度。在本文中,我们探讨了如何通过仔细设计CNN的架构来减少特征图的DRAM流量,而不影响准确性。3553为了设计这样的低DRAM流量CNN架构,有必要测量实际流量。对于通用图形处理单元(GPU),我们使用Nvidia profiler来测量DRAM读/写字节数。对于移动设备,我们使用ARM Scale Sim [30]来获取每个CNN架构的流量数据和推理周期计数。我们还提出了称为卷积输入/输出(CIO)的度量,其简单地是每个卷积层的输入张量大小和输出张量大小的总和,如等式(1),其中c是通道的数量,w和h是卷积层l的特征图的宽度和高度。图1:MoC约束的概念。避免MoC低于约束的Conv层。本文的贡献是,我们介绍了(l)(l)(l)(l)(l)(l)用于特征图访问的DRAM流量及其平台-首席信息官=(cin×win×hin+cout×wout×hout)(1)L独立近似,CIO,作为评估CNN架构的新指标,并表明推理LA-A-CIO是与真实DRAM流量测量成比例的DRAM流量的近似值。请注意,输入张量可以是串联,因此重复使用的张量使用许多大的卷积核可以容易地实现最小化的CIO。然而,它也会损害计算效率,并最终导致显着的延迟开销超过收益。因此,我们认为,保持高的计算效率仍然是必要的,并且只有当计算密度,也就是说,一个层的MAC在CIO(MoC)上低于取决于平台的一定比率时例如,在固定的CIO下,将卷积层的输入和输出之间的信道比从1:1逐步改变为1:100,可以减少MAC和延迟。对于延迟,它比MAC的减少下降得更MoC的某个值可以示出,低于该比率,层的延迟总是被限制到固定时间。然而,该值依赖于平台并且在经验上是模糊的。在本文中,我们应用软约束的MoC设计了一个低CIO的网络模型,并合理增加MAC。如图1,我们避免采用具有非常低的MoC的层,例如具有非常大的输入/输出通道比的Conv 1x 1层。受密集连接网络[18]的启发,我们通过应用该策略提出了谐波密集连接网络(HardD- Net)。我们首先减少DenseNet中的大部分层连接,以降低级联成本。然后,我们平衡输入/输出通道比增加通道宽度的层根据其连接。延迟与DRAM业务高度相关。通过约束,应变的MoC的 每 一 层 , 我 们 提 出 的 HardNets , 减 少 了 40% 的DRAM流量相比,DenseNets。我们在CamVid [3],ImageNet(ILSVRC )[9], PASCAL VOC [12]和MSCOCO上评估了所提出的HardNet[26]数据集。与DenseNet和ResNet相比,HardD-Net实现了相同的准确性,CIO减少了30%至50%,相应地,推理时间减少了30%至40%。2. 相关作品神经网络研究的一个重要趋势是探索捷径.为了解决退化问题,Highway Networks [33]和Residual Networks[16]添加了快捷方式来总结一个具有多个先前层的层随机深度正则化[19]本质上是随机丢弃的交叉层的另一种形式的快捷方式。捷径使隐式监督能够使网络不断深入而不会退化。DenseNets [18]连接所有前面的层作为实现更有效的深度监督的捷径。捷径也被证明在分割任务中非常有用[10]。 Je'gou等[21]表明,在没有任何预训练的情况下,DenseNet可以很好地执行语义分割。然而,快捷方式会导致大量内存使用和沉重的DRAM流量。使用快捷方式延长了张量的寿命,这可能导致DRAM和高速缓存之间的频繁数据交换。一些稀疏版本的DenseNet已经提出。LogDenseNet[17]和SparseNet [36]采用稀疏连接每个层k与层kk它们之间的区别在于LogDenseNet适用于这一战略在全球范围内,其中层连接交叉3554具有不同分辨率的块仍然遵循对数连接规则,而SparseNet具有固定的块输出,对于具有L层的块,其将输出视为层L+1。然而,这两种网络架构都需要显著增加增长率(输出信道宽度)以恢复由于连接修剪而下降的准确性,并且增长率的增加可能会损害CIO的减少。尽管如此,这些研究确实指出了一个有希望的方向来稀疏化DenseNet。经典微机体系结构的性能主要受其有限的计算能力和存储器带宽的影响[4]。研究人员更多地关注提高计算能力和效率。一些研究人员指出,在基于GPU的系统[25,27]、基于FPGA的系统[5,13]或自定义加速器[6,7,11]中,有限的内存带宽可能会主导推理延迟和功耗然而,没有系统的方法来关联DRAM流量和延迟。因此,我们提出了CIO和MoC,并提出了一个概念性的方法来提高效率。3. 申报Harmonic DenseNet3.1. 稀疏化和加权我们提出了一种新的网络架构的基础上的密集连接网络。与LogDenseNet中提出的稀疏化不同,如果2 n整除k,则我们让层k连接到层kk下一旦处理了层2n,就可以从存储器中清除层1到层2n这种联系使网络看起来像是权力的重叠的第二次谐波,如图所示2,因此我们称之为谐波密集连 接 网 络 ( Hard-Net ) 。 所 提 出 的 稀 疏 化 方 案 比LogDenseNet更显著地降低了级联成本。这种连接模式也看起来像一个分形网络[24],除了后者使用平均快捷方式而不是连接。在所提出的网络中,索引除以2的较大幂的层比那些除以2的较小幂的层更有影响力。我们通过增加它们的通道来放大这些关键层,这可以平衡层的输入和输出之间的通道比,以避免低MoC。层l具有初始生长速率k,设其信道数为k×mn,其中n是满足l除以2n的最大数。乘数m用作低维压缩因子如果输入层0有k个通道,m=2,则每个层的通道比为1:1设置m较小图2 :DenseNet、LogDenseNet、SparseNet和提出的Harmonic DenseNet(HardD-Net)的图示,其中每个层都是3x 3卷积。更少的输出通道。根据经验,将m设置在1.6和1.9之间可以实现良好的精度和参数效率。3.2. 过渡层和瓶颈层建议的连接模式形成一组称为谐波密集块(HDB)的我们让每个HDB的深度为2的幂,使得HDB的最后一层具有最大数量的通道。在DenseNet中,块的密集连接输出直接将梯度从输出传递到所有前面的层,以实现深度监督。在深度为L的HDB中,梯度将通过至多logL层。为了减轻降级,我们使深度为L的HDB的输出成为层L及其所有在前的奇数层的级联,奇数层是具有k个输出声道的最低有效层一旦HDB完成,就可以丢弃从2到L当m在1.6到1.9之间时,它们的DenseNet在每个Conv3x3层之前都部署了一个瓶颈层,以提高参数效率。由于我们已经平衡了每一层的输入和输出之间的通道比,因此这种瓶颈层的影响变得微不足道。每四个Conv3x3层插入一个瓶颈层仍然有助于减少模式规模。 我们让瓶颈层的输出通道是cin/cout×cout,其中cin是级联的in-Than 2相当于将输入声道压缩成Put声道,Cout是以下的输出声道:3555(a)(b)第(1)款图3:(a)反向转换向下模块,(b)HardDNet使用Conv3x3层。为了进一步改善推理时间,可以丢弃这些Conv1x1瓶颈层以满足MoC约束。DenseNet提出的过渡层是一个Conv1x1层,后面是一个2x2平均池。如图3a,我们提出了一个反向转换模块,它将输入张量映射到一个附加的最大池化函数以及原始的平均池化,然后是级联和Conv1x1。该模块将Conv1x1的CIO降低了50%,同时以增加模型大小为代价实现了大致相同的精度。3.3. 详细设计与DenseNet相比,我们遵循其全局密集连接策略,绕过HDB的所有输入作为其输出的一部分,并提出了六种模型的HardNet。详细参数见表1。我们使用过渡层的减少率为0.85,而不是DenseNet中使用的0.5减少率,因为如前所述,低维压缩已应用于增长率乘数。为了实现灵活的深度,我们将一个块划分为16层的多个块(当计算瓶颈层时为20层)。我们进一步提出了一个HardNet-68,其中我们重新移动了全局密集连接并使用MaxPool进行下采样,并且我们将DenseNet提出的BN-ReLU-Conv顺序更改为Conv-BN- ReLU的标准顺序HardNet-68中每个HDB的专用增长率k提高了CIO效率。由于深HDB具有更大数量的输入通道,因此更大的增长率有助于平衡层的输入和输出之间的通道比率,以满足我们的MoC约束。对于层分布,而不是集中在大多数CNN模型所采用的步幅-16,我们让步幅-8具有表1:详细的实施参数。“3x3,64”代表具有64个输出通道的Conv3x3层,Stride 2下面的前导数字代表具有多少层的HDB,其次是其增长率k和具有t个深度可分离卷积极大地降低了模型大小和计算复杂度,也可在HardNet上采用。我们提出了一个具有纯深度可分离(DS)卷积的HardNet-39 DS,除了第一个卷积层,通过将Conv 3x 3层分解为逐点卷积和深度卷积,如图所示。3b.在这种情况下,顺序很重要。 由于组屋中的每一层都有很宽的输入,一个窄的输出,反转的顺序增加了CIO显着。请注意,对于具有标准Conv3x3的模型与具有深度可分离卷积的模型然而,当存在对用于分解卷积的CIO应用的加权时,仍然可以实现预测。4. 实验4.1. CamVid数据集为了研究HDB的性能,我们将所有的在HardNet-68中的最多层,改进了局部特征学习,有利于小规模目标检测。相比之下,分类任务更多地依赖于全局特征学习,因此专注于低分辨率可以实现更高的准确性和更低的计算复杂度。块与HDB的FC-DenseNet。我们遵循FC-DenseNet的架构,使用编码器-解码器结构和块级快捷方式来创建用于语义分割的模型。为了公平比较,我们制作了两个深度完全相同的参考架构,96秒/升117秒/升138秒/升6839DSK20/2626/3030/32-M1.61.6/1.651.71.6红色0.85-瓶颈YN步幅27x7,64,步幅=2三乘三,三十二,步幅=2三乘三,二十四,步幅=23x3,641x1,48大步48(建屋发展局深度)888,k=14t=1284,k=16t=96大步816161616,k=16t=25616,k=20t=32016,k=20t=320-3556方法GMAC,@352x480参数(M)首席信息干事(MB)GPU时间(s)建筑树天空车签署路行人围栏极人行道骑车人平均IoU全球账户SegNet [2]22429.57023.768.752.087.058.513.486.225.317.916.060.524.846.462.5FCN 8 [27]1431353184.977.871.088.776.132.791.241.724.419.972.731.057.088.0[21]第二十一话601.413516.177.672.092.4732.31.892.837.926.232.679.931.158.988.9[21]第二十一话1403.5228610.280.275.493.078.240.994.758.430.738.481.952.165.890.8FC-DenseNet103 [21]1349.4215011.483.077.393.077.343.994.559.637.137.882.250.566.991.5LogDenseNet-1031374.72544-81.675.592.381.944.492.658.342.337.277.556.667.390.7FC-DenseNet-ref1001423.5333715.281.177.192.977.740.894.358.135.237.081.548.965.890.9FC-SparseNet-ref1002233.2255911.883.378.393.378.942.594.557.533.141.682.946.966.691.7FC-HardNet-ref1001513.620761082.675.592.878.343.295.459.234.938.985.152.667.191.7FC-HardNet68151.44733.180.874.492.776.140.693.347.929.333.378.345.762.990.2FC-HardNet76543.59324.982.075.892.776.842.694.758.030.937.683.249.965.891.2FC-HardNet841008.412676.781.476.292.978.348.994.661.937.938.280.554.067.791.1表2:关于CamVid数据集的结果。GPU推断时间结果是CamVid测试集(233张图片)的累积测量结果,具有单个图像批量大小,在pytorch-1.0.1框架上运行,使用单个NVIDIA TitanV GPU。每个块和大致相同的模型大小和MAC,命名为FC-HardNet-ref 100和FC-DenseNet-ref 100,重新命名。我们在CamVid数据集上训练和测试了两个网络,在完全相同的环境中使用800个epoch和0.998的学习率衰减,并遵循原始工作中使用的两个通道的批量大小[21]。表2显示了整体和每个类的平均IoU的实验结果。比较这两个网络,FC-HardNet-ref 100实现了更高的平均IoU和38%的CIO。在单个NVIDIA TitanV GPU上运行推理测试时,我们观察到使用tensorflow和Pytorch框架分别节省了24%和36%的推理时间由于FC-HardNet-ref100比FC-DenseNet-ref 100消耗的MAC略多,因此节省的干扰时间应该来自内存流量的减少。与DenseNet的其他稀疏化版本相比,表2表明,由于长时间的通信,FC-LogDenseNet 103得到的CIO数比FC-DenseNet 103更差。月1ConvBLK深度增速MFC-D 10348四、五、七、十、十二、十五16-FC-D ref10048八,八10-FC-S ref10048八,八26-FC-H ref10048八,八101.54FC-H 688四,八,八四、六、八、八、十、十1.7FC-H 7624四,八,八8,10,12,12,12,141.7FC-H 8432四,四,八10,12,14,16,20,221.7表3:FC-HardDNet和其他参考网络的参数,其中FC-D、FC-S和FC-H分别代表FC-DenseNet、FC-SparseNet和FC-HardDNet。由其全局转变引起的层的前半部分的寿命。另一方面,SparseNets使用了一个局部化的过渡层,这样它就可以比LogDenseNet更好地减少张量的生命周期。因此,我们实现了FC-SparseNet-ref 100进行比较,并在相同的环境中训练了五次运行,然后我们选择了最佳结果。结果表明,FC-SparseNet也可以减少GPU的推理时间,但不如FC-HardNet-ref 100。我们提出了如表3所示的FC-HardDNet 84,用于与FC-DenseNet 103进行比较。新网络实现了CIO减少41% , GPU 推 理 时 间 减 少 35% 。 更 小 的 版 本 FC-HardNet 68也比FC-DenseNet 56的CIO少65%,GPU推理时间少52%。我们研究了准确性、DRAM流量和GPU推理时间之间的相关性。图4a示出了HardNet实现了比其他网络更好的DRAM流量上的准确性图4b显示GPU推断时间确实与DRAM流量的相关性比它还表明,CIO是真实DRAM流量的良好近似,除了FCN8s由于其使用大型卷积内核而成为异常值。为了验证不同GPU硬件平台上的推理时间和内存流量之间的相关性,我们采用ARM Scale Sim进行调查。它是ARM的脉动阵列或Eyeriss的周期精确仿真工具。请注意,此工具不支持反卷积,并将这些反卷积层视为普通卷积层。图4c显示,Scale Sim上DRAM流量和推理时间之间的相关性仍然很高,FC-HardNet-84仍然将推理时间减少了35%。3557(a)(b)(c)第(1)款图4:CamVid测试集(360x480)在Nvidia Titan V和Cuda 9.0上运行时的准确性、DRAM流量和GPU推理时间之间的相关性(a)平均IoU与由Nvidia Profiler测量的DRAM流量,其中无连接集代表用于张量连接的显式内存副本可以完全删除的情况。两个参考网络没有进行比较。(b)GPU推理时间与Pytorch 1.0.1框架上的DRAM流量和CIO。(c)推理时间与通过Scale Sim的模拟测量DRAM流量。与FC-DenseNet-103相比。然而,它也表明SegNet的相对推理时间比GPU上的要差得多。因此,它证实了平台之间的相对DRAM流量可能非常不同。Pleiss等人已经提到,DenseNet实现存在级联开销,这是由从现有张量到新内存分配的显式张量复制引起的。因此,其导致额外的DRAM业务。为了表明当开销被打折时,HardNet仍然优于DenseNet,我们用张量级联的流量减去测量的DRAM流量,如图11所示的无连 接 情 况 。 4a , 其 中 级 联 的 DRAM 流 量 由 NvidiaProfiler测量并分解为CatArrayBatched-Copy函数。图图4a 示 出 了 FC-DenseNet 可 以 通 过 折 扣 级 联 而 比 FC-HardNet减少更多的DRAM业务,但是后者仍然优于former。4.2. ImageNet数据集为了训练ImageNet分类任务的六个HardNet模型,我们重用了[16,18]中的torch7训练为了与其他先进的CNN架构(如ResNeXt和MobileNetV2 [31])进行比较,我们采用了更先进的超参数,如余弦学习率衰减和微调的权重衰减。HarDNet-68/39 DS模型的批量大小为256,初始学习率为0.05,余弦学习率衰减,权重衰减为6 e-5。调查CIO的准确性,它表明HardNet可以超越ResNet和DenseNet,而模型大小的准确性介于两者之间,如图所示在图5(a)(b)中。图5c示出了具有torch7的Nvidia Titan V上的GPU推理时间结果,其与图5c的趋势非常相似。图5a示出了C1和GPU推断时间之间的高度相关性,并且再次示出了C1和GPU推断时间之间的高度相关性。然而,结果也表明,对于小模型,与ResNet相比,HardDNet的GPU推理时间没有改善,我们认为这是由于层数和拼接成本。我们还认为,一旦一 个 不 连 续 的 输 入 张 量 可 以 由 卷 积 运 算 支 持 ,DenseNet和HardNet的推理时间将进一步减少。在图5d中,我们将最先进的CNN模型ResNeXt与我们用余弦学习率衰减训练的模型进行了比较。虽然ResNeXt在相同的模型大小下实现了显着的准确性提高 , 但 这 些 模 型 仍 然 存 在 推 理 时 间 开 销 。 由 于ResNeXt没有增加MAC,因此可以通过CIO的增加来解释开销。在表4中,我们显示了ImageNet的CIO排序的结果比较,其中还包括HardNet 68/39 DS。 通过减少层数,全局密集连接的cel和BN重新排序,HardDNet-68实现了ResNet-50的推理时间显为了进一步比较使用标准卷积的模型和使用Mealy卷积的3558(a)(b)第(1)款(c)(d)其他事项图5:(a)ImageNet错误率与CIO (b)错误率与型号尺寸。(c)错误率与使用torch7的单个TitanV上的GPU推理时间。HardNet-68的GPU时间请参见表4。(d)进一步比较使用余弦学习率衰减和ResNeXt训练的HardNet-cosine。对于深度可分离卷积,我们可以对后者的C10应用诸如0.6的权重加权后的CIO仍然可以作为两种完全不同的模型之间的推理时间的一个粗略预测。4.3. 对象检测我们评估了HardNet-68作为单镜头检测器(SSD)的主干模型,并使用PASCAL VOC 2007和MS COCO数据集对其进行训练。与SSD-VGG对齐,我们分别在步幅8和16的最后一层将ImageNet预训练的HardNet-68附加到SSD,并丢弃步幅32中的 我们在步距16上的组屋之后插入一个桥接模块。桥模块包括具有步幅1的3x3最大池化、扩张4的3x3卷积和逐点卷积,其中两个卷积层具有640个输出通道。我们用VOC和COCO数据集的300和150个epoch训练模型。初始学习率为0.004,在最大学习周期的60%、80%、90%时衰减10倍。表5中的结果表明,尽管SSD-ResNet 101在ImageNet中的准确性较低,但我们的模型实现了与SSD-ResNet 101相似的准确性,这表明了我们的有效性。在步幅8上进行增强,具有32层,改善了小尺度对象的局部特征学习。此外,HardNet-68比VGG-16和ResNet-101都快得多,这使得它在实时应用中非常有竞争力。5. 讨论CIO有一个假设,它是一个CNN模型,一层一层地处理,没有融合。相比之下,已经提出了用于多个卷积层的融合层计算[1],其中融合层组中的中间层不会产生用于特征图的任何存储器流量。在这种情况下,MobileNetV2中的反向残差模块可能是实现低内存流量的更好设计此外,深度方向卷积可以被实现为恰好在相邻层之前或之后的元素方向操作。在这种情况下,深度卷积的CIO应该被打折。结果表明,CIO仍然未能预测实际的推理时间在某些情况下,如比较两个网络模型具有显着不同的架构。3559在这种情况下很重要。我们认为,实现流量减少的最佳方法是合理地增加网络模型的MoC,这可能与广泛接受的使用更多Conv1x1实现更高效率的知识相反。然而,在许多情况下,我们已经证明这确实是有帮助的表4:ImageNet模型的测试结果,其中GPU时间在Nvidia GTX 1080上测量,Pytorch 1.1.0为1024 x1024,移动GPU时间在Nvidia Jetson Nano上测量,TensorRT-onnx为320 x320。骨干模型VOC 2007地图Coco地图SSD512VGG-1679.828.8SSD513ResNet-10180.631.2SSD512HardNet-6881.530.2表5:物体检测的结果。对比数据来自[35]正如我们之前提到的,只有当MoC低于特定比率时,CIO才主导推理时间,该比率为数据流量空间内的计算密度。在网络模型中,每一层都有不同的MoC。在一些层中,CIO可能占主导地位,但对于其他层,如果MAC的计算密度相对较高,则MAC仍然可以是关键因素。为了精确预测网络的推理延迟,我们需要分解到每一层并研究其MoC以预测该层的推理延迟。我们想进一步强调DRAM流量的重要性。由于量化已被广泛用于CNN模型,乘法器的硬件成本和数据流量都可以减少。然而,从float32到int8的乘法器的硬件成本降低远远大于相同事物的数据流量的减少。当开发硬件平台主要使用int8乘法器时,计算能力的增长速度会超过数据带宽的增长速度,因此数据流量会更多6. 结论我们提出了一种新的度量标准,通过估计特征映射的DRAM流量来评估卷积神经网络,这是影响系统功耗的关键因素。当计算密度较低时,流量可以比模型大小和操作计数更显著地支配推理时间我们采用卷积输入/输出(CIO)作为DRAM流量的近似,并提出了一个谐波密集连接网络(HardNet),实现了一个高精度的CIO,也是一个高计算效率,通过增加计算的密度(MAC在CIO)。实验结果表明,与FC-DenseNet相比,FC-HardNet的连接模式和通道均衡使其DRAM流量减少了40%,GPU推理时间减少了35%。与DenseNet-264和ResNet-152相比,HardDNet-138 s实现了相同的精度,GPU推理时间减少了35%。与ResNet-50相比,HardDNet- 68的推理时间减少了30%, 也是用于对象检测的理想骨干模型,其将SSD的准确性提高到高于在PASCALVOC数据集中使用ResNet-101,同时推理时间也从SSD-VGG显著减少。总之,除了模型大小的准确性和MAC的准确性权衡之外,我们还证明了特征映射的DRAM流量的准确性确实是设计神经网络架构时的重要考虑因素。确认本研究部分由台湾科技部(MOST)资助。我们非常感谢台湾云计算(TWCC)为我们提供了强大而稳定的云计算机器以及一流的技术支持。没有它,这项研究是不可能的。引用[1] Manoj Alwani,Han Chen,Michael Ferdman,and PeterMilder.融合层CNN加速器。第49届年会参数(M)MAC(B)首席信息干事(男)GPU时间(ms)移动GPU(毫秒)Top1访问HardNet 39DS3.50.448.217.832.572.1MobileNetV23.50.3213.423.737.972.0HardNet 68DS4.20.7915.331.752.674.3MNetV2 1.4x6.10.5918.533.057.874.7ResNet 1811.71.84.713.0-69.6SqueezeNet 1.01.20.837.919.6-60.4HardNet 6817.64.311.532.6-76.2HardNet 96s9.32.511.736.4-74.7HardNet 117s20.94.916.757.6-77.03560IEEE/ACM微架构国际研讨会(MICRO),第1-16页,2016年。[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegNet : ADeepConvolutionalEncoder-DecoderArchitec- ture for Image Segmentation. IEEE Transactionson Pattern Analysis and Machine Intelligence , 39(12):2481-2495,2017。[3] Gabriel J. Brostow,Julien Fauqueur,and Roberto Cipolla.视频中的语义对象类:一个高清晰度地面实况数据库。Pattern Recognition Letters 30(2),88-97,2009.[4] 放大图片作者:JamesR. 古德曼和阿兰·凯吉。未来微处理器的存储器带宽限制第23届计算机体系结构国际研讨会论文集(ISCA),第78-89页,1996年[5] Srimat Chakradhar , Murugan Sankaradas , VenkataJakkula和Srihari Cadambi。卷积神经网络动态配置协处理器在国际计算机体系结构研讨会(ISCA),第247-257页,2010中。[6] 陈天石,杜自东,孙宁辉,王佳,吴承永,陈云吉,和Olivier Temam。Dianao:一个用于无处不在的机器学习的小规模高通量加速器。在International Conference onArchitectural Support for Programming Languages andOperating Systems (ASPLOS ),第269-284页,2014年。[7] Yu-Hsin Chen,Joel Emer,and Vivienne Sze. Eyeriss:ASpatial Architecture for Energy-Efficient Dataflow forConvolutional Neural Networks.在国际计算机体系结构研讨会(ISCA),第367-379页,2016年。[8] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二进制神经网络:使用权重和激活训练神经网络限 制 为 +1 或 -1 。 arXiv 预 印 本 arXiv : 1602.02830 ,2016。[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. ImageNet:一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议(CVPR)中,第248-255页,2009年。[10] MichalDrozdzal、 EugeneVorontsov、 GabrielChartrand、Samuel Kadoury和Chris Pal。跳跃连接在生物 医 学 图 像 分 割 中 的 重 要 性 arXiv 预 印 本 arXiv :1608.04117,2016。[11] Alessandro Aimar等人NullHop:一个基于特征映射稀疏表示的灵活卷积神经网络加速器。在IEEE Transactionson Neural Networks and Learning Systems,2018年。[12] 放 大图 片 作 者: Mark Everingham , Luc Van Gool,Christopher K. I. Williams , John Winn , and AndrewZisserman. PAS-CAL 视 觉 对 象 类 ( VOC ) 挑 战 .International Journal of Computer Vision,88(2):303[13] Cle' mentFarabe t,BerinMartini,BenoitCorda,PolinaAk-selrod,EugenioCulurciello,andYannLeCun.NeuFlow:用于视觉的运行时可重配置数据流处理器在IEEE计算机视觉和模式识别研讨会(CVPRW)的论文集,第109-116页,2011年。[14] Philipp Gysel,Mohammad Motamedi,and Soheil Ghiasi.卷积神经网络的面向硬件近似。2016年,国际学习代表会议(ICLR)研讨会[15] Song Han,Huizi Mao,and William J. Dally深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络国际学习表征会议(International Conference on LearningRepresentations,ICLR),2016。[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)中,第770-778页,2016年。[17] Hanzhang Hu,Debadeepta Dey,Allison Del Giorno,Martial Hebert , and J. 安 德 鲁 · 巴 格 内 尔 。Log-DenseNet : 如 何 稀 疏 化 一 个 DenseNet arXiv 预 印 本arXiv:1711.00002,2017。[18] 高煌,刘庄,劳伦斯·范德马腾,和Kilian Q.温伯格密集连接的卷积网络。在IEEE计算机视觉和模式识别会议(CVPR)中,第2261-2269页,2017年。[19] 高煌,孙宇,刘壮,丹尼尔·塞德拉,基尔安·温伯格.深度 随 机 的 深 度 网 络 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV),第646-661页,2016年。[20] 福雷斯特N.放大图片放大图片作者:Matthew W.放大图片作者:William J.达利和库尔特·库泽。Squeezenet:Alexnet级精度,参数减少50倍,…0.5MB模型大小。arXiv预印本arXiv:1602.07360,2016.[21] Sim onJe' gou , MichalDrozdzal , Da vidVazquez ,AdrianaRomero 和 Yoshua Bengio 。 The One HundredLayers Tiramisu : Fully Convolutional DenseNet forSemantic Segmentation.在IEEE计算机视觉和模式识别研讨会(CVPRW)会议上,第1175-1183页,2017年。[22] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告,2009年。[23] Al
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功