轻量级、节能、通用的卷积神经网络ESPNetv2的性能优于现有技术水平的方法

139 浏览量更新于2023-10-19 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1ESPNetv2：一种轻量级、节能、通用的卷积神经网络SachinMehta，Mohammad Rastegari，Linda Shapiro和Hannaneh Hajishirzi，华盛顿大学艾伦人工智能研究所（AI2）{sacmehta，shapiro，hannaneh}@ cs.washington.edumohammadr@allenai.org摘要我们介绍了一个轻量级，节能，通用卷积神经网络，ESPNetv2，用于建模视觉和序列数据。我们的网络使用组逐点和深度扩张可分离卷积来学习来自具有较少FLOP和参数的大型有效接收场的表示。我们的网络性能通过四项不同的任务进行评估(1) 对象分类，（2）语义分割，（3）对象检测，以及（4）语言建模。这些任务的实验，包括图像分类的Ima-geNet和语言建模的PenTree银行数据集上，证明了我们的方法优于国家的最先进的方法的性能。我们的网络优于ES-PNet减少4-5%，并且在PASCAL VOC和Cityscapes数据集上的FLOP减少2-4倍与YOLOv2相比在MS-COCO对象检测上，ESPNetv 2的精度提高了4.4% ，而 FLOP 减少了 6 倍。实验结果表明，ESPNetv2具有更高的功率效率，比包括ShuffleNets和MobileNets的现有技术水平的有效方法更有效我们的代码是开源的，可以在https://github.com/sacmehta/ESPNetv2 上找到。1. 介绍GPU的可编程性和计算能力的不断提高加速了用于建模视觉数据的深度卷积神经网络（CNN）的增长[16，22，34]。CNN被用于现实世界的视觉识别应用，如视觉场景理解[62]和生物医学图像分析[42]。许多这些现实世界的应用程序，如自动驾驶汽车和机器人，运行在资源受限的边缘设备上，并要求以低延迟在线处理数据。现有的基于CNN的视觉识别系统需要大量的计算资源，包括存储器和电源。虽然它们在基于GPU的高端机器上实现了高性能（例如NVIDIATitanX），但对于资源受限的边缘设备（如手机和嵌入式计算平台）来说，它们通常过于昂贵。作为一个例子，ResNet-50 [16]是用于图像分类的最知名的CNN架构之一，具有2556万个参数（98 MB内存），并执行28亿次高精度操作来对图像进行分类对于更深的CNN，这些数字甚至更高，例如ResNet-101.这些模型很快就会使边缘设备上可用的有限资源（包括计算能力、内存和电池）负担过重。因此，在边缘设备上运行的用于实际应用的CNN应该是轻量级和高效的，同时提供高精度。最近在构建轻量级网络方面的努力可以大致分为：（1）基于网络压缩的方法去除预训练模型中的冗余，以便更有效。这些模型通常通过不同的参数修剪技术实现[24，55]。(2) 基于低位表示的方法使用很少的位而不是高精度浮点来表示学习的权重[20，39，47]。这些模型通常不会改变网络的结构，卷积运算可以使用逻辑门来实现，以实现CPU上的快速处理。(3)轻量级CNN通过分解计算上昂贵的卷积运算来提高网络的效率[17，18，29，32，44，60]。这些模型通过其设计是计算高效的，即，底层模型结构学习更少的参数并且具有更少的浮点运算（FLOP）。在本文中，我们介绍了一种轻量级架构ESPNetv2，可以轻松地部署在边缘设备上。本文的主要贡献是：（1）提出了一种通用的可视化和顺序数据建模的体系结构。我们展示了我们的网络在不同任务中的性能，从对象分类，91909191关于语言建模(2)我们提出的架构ESPNetv 2扩展了ESPNet [32]，这是一种基于扩张卷积的分割网络，具有深度可分离卷积;卷积的一种有效形式，用于最先进的高效网络，包括MobileNets [17，44]和ShuffleNets[29，60]。与深度可分离卷积相比，深度扩张可分离卷积将ESPNetv2的准确性我们注意到ESPNetv2实现了更好的准确性（ 72.1 ， 284 MFLOP ）， FLOP 比ESPNet 中的扩张卷积更少 [32] （ 69.2 ， 426MFLOP）。(3)我们的实证结果表明，ESPNetv2在不同的视觉识别任务上提供了类似在ImageNet分类任务[43]中，我们的模型在效率和准确性方面优于之前所有的高效模型设计，特别是在小计算预算下。例如，我们的模型在 28 个 MFLOP 的计算 bud- get 上比MobileNetv 2 [44]的性能高出2%对于PAS上的语义分割CAL VOC和Cityscapes数据集，ESPNetv 2比ESPNet[32] 高出 4-5% ， FLOP 少 2-4 倍对于对象检测，ESPNetv2的性能比YOLOv2高4.4%，FLOP少6倍。我们还研究了一个循环学习率调度与热重启。我们的结果表明-gests，这种调度器是更有效的比标准的固定学习率调度器。2. 相关工作高效的CNN架构：大多数最先进的有效网络[17，29，44]使用深度可分离卷积[17]，将卷积分解为两个步骤以降低计算复杂度：（1）通过对每个输入通道应用单个卷积核来执行轻量滤波的深度卷积，以及（2）通常通过学习输入通道的线性组合来沿着通道扩展特征图的点卷积。在高效网络[18，60]中使用的另一种有效形式的卷积是组卷积[22]，其中输入通道和卷积核被分解成组，并且每个组都是独立卷积的。ESPNetv2网络使用这些有效的卷积形式扩展了ESPNet网络[32] 。为了从一个大的有效感受野中学习表示，ESPNetv2使用深度方向的除了卷积因子分解，网络的效率和准确性还这些方法与我们的工作是正交的。神经架构搜索：这些方法使用包含不同参数的预定义字典在巨大的网络空间上进行搜索，包括不同的卷积，传统层、不同卷积单元和不同滤波器大小[4，52，56，66]。最近的基于搜索的方法[52，56]已经显示出MobileNetv2 的改进。我们相信，这些方法将提高ESPNetv2的性能，并补充我们的工作。网络压缩：这些方法通过修剪网络连接或通道来改进预训练网络的推理[12，13，24，53，55]。这些方法是有效的，因为CNN具有大量的冗余权重。这些方法中的大多数的效率增益是由于参数的稀疏性，并且由于查找和数据迁移操作的成本，难以在CPU上有效地实现这些方法是对我们网络的补充。低位表示：改进预训练网络的推理的另一种方法是使用量化的网络权重的低位表示[1，9，20，39，47，57，64]。这些方法使用更少的位来表示预训练网络的权重，而不是32位高精度浮点。类似于基于网络压缩的方法，这些方法是对我们工作的补充。3. ESPNetv2本节详细阐述ESPNetv2体系结构。我们首先描述了深度方向的扩张可分离卷积，它使我们的网络能够有效地从一个大的有效感受野学习表示。然后，我们描述了ESPNetv2网络的核心单元，EESP单元，它是使用组逐点卷积和深度扩张可分离卷积构建的3.1. 深度扩张可分离卷积卷积因式分解是许多高效架构[17，29，44，60]使用的关键原理。其基本思想是用一个因式分解的版本代替完整的卷积运算，例如深度可分离卷积[17]或组卷积[22]。在本节中，我们描述了深度扩展的可分离卷积，并与其他类似的有效卷积形式进行标准卷积是将输入X∈RW×H×c与卷积核K ∈ Rn×n×c×c进行卷积，通过从n×n的有效感受野学习n2c×c的参数来产生输出Y∈RW×H×c。与标准卷积相比，深度方向扩张的可分离卷积，解决方案通过将标准卷积分解为两层来应用轻量级过滤：1）每个输入通道的深度方向扩张卷积，扩张率为r;卷积学习来自有效接收域nr×nr 的表示，其中nr=（n−1） ·r+1;2）逐点卷积学习输入的线性组合这种因式分解通过以下方式降低了计算成本9192n2c+ccMd+（n2+d）dKK（男、女、1）Conv-1（d，d，1）（d，d，2）（d，d，3）DConv-3DConv-3DConv-3（d，d，K）· · ·DConv-3添加添加添加Concatenate添加（男、女、1）GConv-1（d，d，1）（d，d，2）（d，d，3）DDConv-3DDConv-3DDConv-3（d，d，K）· · ·DDConv-3添加添加（d，d，1）Conv-1（d，d，1）（d，d，1）Conv-1添加（d，d，1）Conv-1Concatenate添加（男、女、1）GConv-1（d，d，1）（d，d，2）（d，d，3）（d，d，K）DDConv-3DDConv-3DDConv-3 DDConv-3···添加添加添加Concatenate（N，N，1）GConv-1(a) ESP(b) EESP-A(c) EESP图1：该图显示了ESPNet（a）中的ESP单元和ESPNetv 2（b-c）中的EESP单元的构建模块。我们注意到，（b-c）中的EESP单元在计算复杂度方面是等价的。每个卷积层（Conv-n：n×n标准卷积，GConv-n：n × n组卷积，DConv-n：n × n扩展卷积，DDConv-n：n × n深度扩展卷积）由（#输入通道，#输出通道和扩展率）表示。（b）中的逐点卷积或（c）中的分组逐点卷积(c)在HFF之后应用，以学习输入之间的线性组合。卷积型参数伊芙感受野标准组深度可分离n2cc2nccGn2c+ccn×nn×nn×n深度扩张可分n2c+ccnr×nr表1：不同类型卷积之间的比较。这里，n×n是核大小，nr=（n−1）·r+ 1，r是膨胀率，c和c是关于ively的输入和输出通道，g是组的数量。2ncc的因数。不同类型卷积的计算公式见表1。深度方向扩张可分离卷积是有效的，并且可以从大的有效感受野学习表示。3.2. EESP装置利用深度扩张可分卷积和群点卷积的优点，提出了一种新的单位EESP--深度扩张可分卷积的E极高效S空间我们的网络设计受到ESPNet架构的激励[32]，这是一种最先进的高效分割网络。ESPNet架构的基本构建块是ESP模块，如图1a所示。它基于减少-分裂-转换-合并策略。ESP单元首先使用逐点卷积将高维输入特征映射投影到低维空间中，并且然后使用具有不同膨胀率的膨胀卷积来并行地学习表示每个分支中的不同扩张率允许ESP单元从大的有效感受野学习表示。这种因式分解，特别是学习低维空间中的表示，允许ESP单元高效.为了使ESP模块在计算上更有效，我们首先用组逐点卷积代替逐点卷积。然后，我们将计算昂贵的3 × 3扩张卷积替换为它们的经济对应物，即。深度扩张的可分离卷积。为了去除由扩张卷积引起的网格伪影，我们使用计算高效的分层特征融合（HFF）方法融合特征图[32]。该方法以分层的方式添加融合使用扩张卷积学习的特征图;来自具有最低感受野的分支的特征图与来自具有下一个最高感受野的分支的特征图在层次1的每个级别处组合。所得单元如图lb所示。使用组逐点和逐深度扩张可分离卷积，ESP块的总复杂度降低了一个因子，2 2Md+ndK，其中K是并行分支的数量Gg是组逐点卷积中的组数例如，当M=240、g=K=4和d=M=60时，EESP单元学习的参数比ESP单元少7倍。我们注意到，独立计算图1b中的K个逐点（或1×1）卷积等效于单个在复杂性方面，组逐点卷积与K组的逐点卷积相比更简单;然而，组逐点卷积在实现方面更有效，因为它启动一个卷积核而不是K个逐点卷积核。因此，我们用一组逐点卷积替换这些K个逐点卷积，如图1c所示。我们将此单元称为EESP。1其他现有的作品[54，59]添加了更多具有小膨胀率的卷积层这增加了单元或网络的计算复杂性。HFFHFFHFF9193层输出大小内核大小/Stride不同ESPNetv2型号的重复输出通道卷积112 ×1123× 3 /21163232323232（图）（二）56 ×56132648096112128（图）（二）EESP（图1c）28 ×2828 ×28136464128128160160192192224224256256（图）（二）EESP（图1c）14 ×1414 ×1417128128256256320320384384448448512512（图）（二）7 ×712565126407688961024EESP（图1c）7 ×732565126407688961024深度卷积7 ×73 ×32565126407688961024群卷积7 ×71 ×1102410241024102412801280全局平均值池完全连接1 ×17 ×71000 1000 1000 1000 1000 1000复杂性28米86米123米169 M224海里284海里参数1.24百万1.67 M1.97百万2.31百万3.03百万3.49百万表2：不同计算复杂度下的ESPNetv2网络，用于将ImageNet数据集中的224×224输入分类为1000个类[43]。网络具有到输入图像的快捷连接的跨步EESP：为了在多个尺度上有效地学习表示，我们对图1c中的EESP块进行了以下更改：1）深度方向的扩张卷积被替换为它们的步幅对应物，2）添加平均池化操作而不是身份连接，以及3）元素方向的加法操作被替换为连接操作，这有助于有效地扩展特征图的维度[60]第一章。空间信息在下采样和卷积（滤波）操作期间丢失。为了更好地编码空间关系并有效地学习表示，我们添加了图2：步进式EESP单元，可快捷连接到输入图像（以红色突出显示）以进行下采样。平均池操作重复P×，以匹配输入图像和特征图的空间维度。在输入图像和当前下采样单元之间的有效的长距离快捷连接。这种连接首先将图像下采样到与特征图相同的大小，然后使用两个卷积的堆栈来第一个卷积是标准3×3卷积学习空间表示，而第二个卷积是逐点卷积，卷积学习输入之间的线性组合，并将其投影到高维空间。图2所示为与输入端有远程快捷连接的最终EESP装置。3.3. 网络架构ESPNetv2网络使用EESP单元构建。在每个空间级别，ESPNetv2将EESP单元重复几次，以增加网络的深度。在对于EESP单元（图1c），我们使用批处理标准化[21] 和PReLU [15]在每个卷积层之后，除了最后一个逐组卷积层，其中PReLU在逐元素求和操作之后应用。为了在每个空间级别保持相同的计算复杂度，在每次下采样操作之后，特征图被加倍[16，46]。在我们的实验中，我们将扩张率设置为与EESP单元中的分支数（K）成比例。 EESP单位的有效感受野随K的增加而增大。一些内核，特别是在低空间水平，例如7×7的ELS可能具有比特征图的大小更大的有效感受野。因此这类内核可能对学习没有贡献。为了具有有意义的内核，我们将每个空间水平l处的有效感受野限制为空间维度Wl×Hl，如下：（M′，d′，1）GConv-1（d′，d′，1）（d′，d′，2）（d′，DDConv-3DDConv-3（stride=2）DDConv-3（stride=2···（d′，d′，K）DDConv-3添加添加添加3×3平均值池（步幅=2，重复Concatenate（N′，N′，1）GConv-1（三，三，一）（3，N，1）3 ×3平均值池（stride=2）添加HFF9194网络#参数FLOPsTop-1[第17话]2.59百万325米68.4[第18话]–274海里71.0IGCV3 [49]–318海里72.2Xception [7]–305 M70.6[19]第十九话–295海里60.1[60]第六十话3.46百万292海里71.5[44]第四十四话3.47百万300米71.86.9米小行星58574.7[29]第二十九话3.5米299海里72.6(a)(b)（c）第（1）款图3：ImageNet验证集上不同高效网络的性能比较：（a）ESPNetv2与ShuffleNetv1 [60]，(b) ESPNetv2与不同网络复杂度下的高效模型，以及（c）ESPNetv2与最先进的计算预算约为3亿FLOP。我们计算大小为224×224的输入图像的乘加运算（FLOP）的总数。这里，t表示在[29]中报告了这些网络的性能最好用彩色观看nl（Zl）=5+Zl，Zl∈ {Wl，Hl}，有效接收D7对应于最低空间水平的方向场（nd×nd）(i.e.7×7）为5×5。在 [32]之后，我们在实验中设置K=4。此外，为了获得均匀的AR，架构中，我们设置组逐点卷积中的组数等于并行分支数（g=K）。不同计算复杂度下的ESPNetv2整体架构如表2所示。4. 实验为了展示ESPNetv2网络的强大功能，我们在四个不同的任务上评估和比较了最先进的方法的性能：（1）对象分类，(2)语义分割，（3）目标检测，和（3）语言建模。4.1. 图像分类数据集：我们在ImageNet 1000路分类数据集上评估了ESPNetv2的性能[43]，该数据集包含128万张用于训练的图像和50K张用于验证的图像。我们使用单一作物top-1分类精度来评估我们的网络的性能，即。我们计算大小为224 × 224的中心裁剪视图的精度。训练：ESPNetv2网络使用PyTorch深度学习框架[38]进行训练，CUDA 9.0和cuDNN作为后端。为了优化，我们使用SGD[50]第50话温暖在每个时期t，我们计算学习率ηt为：ηt=ηmax−（tmodT）·ηmin（1）其中，ηmax和ηmin是学习速率的范围，T是学习速率将重新开始的周期长度。图4显示了三种学习率策略图4：循环学习率策略（参见公式4）1）具有线性学习率衰减和热重启。自行车.该学习率方案可以被视为余弦学习策略[28]的变体，其中学习率在热重启之前作为余弦的函数衰减在我们的实验中，我们设置 ηmin=0 。 1 ，ηmax=0。5，T=5。我们通过优化交叉熵损失来训练我们的网络，批量大小为512，持续300个epoch。为了更快的收敛，我们将学习率衰减一个因子在以下时期间隔的两个：{50，100，130，160，190、220、250、280}。我们使用标准的数据扩充策略[16，51]，但基于颜色的非malization。这与最近的高效架构形成对比，后者使用较少的比例增加来防止欠拟合[29，60]。我们的网络的权重使用[15]中描述的方法初始化。结果：图3提供了ESPNetv2和最先进的高效网络之间的性能比较。我们注意到：（1）像ShuffleNetv1 [60]一样， ESPNetv2 也使用组逐点卷积。然而，ESPNetv2不使用任何通道洗牌，这在ShuffleNetv1中非常有效，并且比ShuffleNetv1提供更好的性能。(2)与MobileNets相比，ESPNetv2提供了更好的性能，特别是在小计算预算下。ESPNetv2拥有2800万FLOP，优于MobileNetv1 [17]（349195(a)推理时间与批量（1080 Ti）（b）功率与批量大小（1080 Ti）（c）TX2上的功耗图5：不同高效网络的性能分析（计算预算约为3亿FLOP）。在NVIDIA GTX 1080 Ti GPU和NVIDIA Jetson TX2上，针对224×224输入，计算100次迭代的平均推理时间和功耗。我们不报告TX2上的执行时间，因为没有太大的实质性差异。最好用彩色观看。百万FLOPs）和MobileNetv2（3000万FLOPs）分别增长10%和2%（3）ESPNetv2提供了与ShuffleNetv2 [29]相当的准确性，而没有任何通道分裂，这使得ShuffleNetv2能够提供比ShuffleNetv1更好的性能。我们相信，这样的功能（通道分裂和通道洗牌）是正交的ESPNetv2，并可用于进一步提高其效率和准确性。(4)与计算预算约为3亿FLOP的其他高效网络相比， ESPNetv2 提供了更好的性能（例如，比CondenseNet准确1.1%[18]）。多标签分类：为了评估迁移学习的泛化能力，我们在MSCOCO多对象分类任务上评估了我们的模型[25]。该数据集由82，783张图像组成，分为80类，每张图像有2.9个对象标签。在[65]之后，我们使用类别和总体F1评分在验证集（40，504张图像）上评估了我们的方法。我们使用与ImageNet数据集相同的数据增强和训练设置微调ESPNetv2（2.84亿FLOPs）和Shufflenetv2[ 29 ]（2.99亿FLOPs）100个epoch，除了ηmax = 0。005，ηmin = 0. 001，学习率在第50和80个时期衰减2。我们使用二元交叉熵损失进行优化。结果示于图6中。ESPNetv2的性能远远优于ShuffleNetv2，特别是在图像分辨率为896×896; 这表明 EESP 单元的大有效感受野有助于ESPNetv 2学习更好的表征。性能分析：边缘设备具有有限的计算资源和受限的能量开销。用于这样的设备的有效网络应该消耗更少的功率并且具有低延迟和高精度。我们在两种不同的设备上测量我们的网络ESPNetv 2以及其他最先进的网络（MobileNets [17，44]和Shuf- fleNets [29，60]）的效率：1）高端显卡（NVIDIA GTX 1080 Ti）和2）嵌入式设备（NVIDIA Jetson TX 2）。为了进行公平的比较，我们使用PyTorch作为深度学习框架。图5比较了推理时间和功耗，图6：在不同图像分辨率下测试时，ESPNetv2在MS-COCO多对象分类任务上的F1得分优于ShuffleNetv 2对于验证集上224×224的输入，ESPNetv 2和ShuffleNetv 2的类/总体F1得分分别为63.41/69.23和60.42/67.58。网络复杂性及其准确性如图3所示。ESPNetv2的推理速度略低于这两种设备上最快的网络（ShuffleNetv2[29]），但是，它在ImageNet数据集上提供类似精度的同时，具有更高的能效。这表明ESPNetv 2网络在准确性、功耗和延迟之间有很好的权衡;对于在边缘设备上运行的任何网络来说，这是一个非常理想的属性4.2. 语义分割数据集：我们在两个数据集上评估ESPNetv2的性能：（1）Cityscapes [8]和（2）PASCAL VOC 2012数据集[10]。Cityscapes数据集由5，000个精细注释的图像组成（训练/验证/测试：2，975/500/1，525）。该任务是分割成19类属于图像7类。PASCAL VOC 2012数据集为20个前景对象提供注释，并具有1.4K训练，1.4K验证和1.4K测试图像。根据标准约定[5，63]，我们还使用[14，25]中的其他图像来训练我们的网络。培训：我们分两个阶段培训我们的网络。在第一阶段中，我们使用较小的图像分辨率进行训练（ 256×256）。9196PASCAL VOC 2012数据集为256，CityScapes数据集为512×256 ）。我们使用 SGD 训练 ESPNetv2100 个epoch，初始学习率为0.007。在第二阶段，我们提高了图像分辨率（384×PASCAL VOC 2012为384，Cityscapes数据集），然后从第一阶段使用SGD，初始学习率为0.003。对于这两个阶段，我们使用4.1节中讨论的循环学习时间表。对于前50个时期，我们使用5的周期长度，而对于剩余时期，我们使用50的周期长度，即对于最后的50个时期，我们线性地衰减学习速率。我们使用在线评估服务器在私有测试集上以平均交集超过并集（mIOU）来评估准确性。为了评估，我们将分割的掩码上采样到与网络VOC07CocoFLOPs地图FLOPs地图SSD-512 [26]90.2 B74.999.5 B26.8[26]第二十六话31.3 B72.435.2 B23.2[40]第四十话6.8 B69.017.5 B21.6[第17话]––1.3 B22.2[44]第四十四话––0.8 B22.1ESPNetv 2- 512（我们的）2.5 B68.22.8 B26.0ESPNetv 2- 384（我们的）1.4B65.61.6 B23.2ESPNetv 2-256（我们的）0.6 B63.80.7B21.9表3：PASCAL VOC 2007和MS-COCO数据集上的目标检测结果。COCO数据集，我们报告mAP @ IoU为0.50：0.95。对于培训，我们使用与第4.2节相同的学习策略。使用最近邻插值输入图像。结果：图7比较了ESPNetv2在Cityscapes和PASCALVOC 2012 数据集上的性能。我们可以看到，ESPNetv2在非常高效的同时提供了与现有方法在类似的计算约束下，ESPNetv2大大优于现有的方法，如ENet和ESPNet。值得注意的是，ESPNetv 2的准确性比ICNet、ERFNet和ContextNet等其他高效网络低2-3%，但FLOP少9-12倍4.3. 对象检测数据集和训练细节：对于目标检测，我们用ESPNetv2代替VGG在单镜头目标检测器。我们在两个数据集上评估性能：（ 1 ） PASCAL VOC 2007 和（ 2 ） MS-COCO数据集。对于PASCAL VOC 2007数据集，我们还使用了PASCAL VOC 2012数据集的其他我们用平均精度（mAP）来评估性能。为SegNet [2] 31 B 59.1结果：表3比较了ESPNetv2与现有方法的性能。ESPNetv2提供了一个很好的准确性和效率之间的权衡。值得注意的是，ESPNetv2提供了与YOLOv2相同的性能，但FLOP减少了25倍。与SSD相比，ESPNetv2提供了极具竞争力的性能，非常有效率。4.4. 语言建模数据集：我们的单元 EESP 的性能在 Penn Treebank（PTB）数据集[30]上进行了评估，如[35]所准备的。对于训练和评估，我们遵循与[34]中相同的训练，验证和测试数据分割。语言模型：我们扩展了基于LSTM的语言模型，用LSTM单元2中的EESP单元代替线性变换来处理输入向量。我们称之为ERU（高效循环单元）。我们的模型使用3层ERU，嵌入大小为400。我们使用标准dropout[48]，在嵌入层之后概率为0.5，ERU层之间的输出以及最终ERU层的输出我们使用与[34]相同的学习策略训练网络我们根据困惑度来评估性能;较低的困惑度值是可取的。结果如下：语言建模结果见表4. 排减单位的绩效与国家相比类似或更好，最先进的方法，同时学习更少的参数。具有类似的超参数设置，如dropout，ERU de- liver类似（仅比PRU少1分[32]）或比最先进的递归网络更好的性能，同时学习更少的参数;这表明所引入的EESP装置（图1c）是高效和强大的，并且可以(a) 城市景观(b) Pascal VOC 2012可以应用于不同的序列建模任务，as question问题answering回答and machine机translation翻译.我们注意到图7：（a）Cityscapes的语义分割结果PASCAL VOC 2012数据集。为了公平的计算，我们在用于计算精度的相同图像分辨率下报告FLOP。[44]第25话：我的朋友我们具有7百万个参数的最小语言模型优于大多数最先进的语言模型（例如，[3、11、58]）。我们认为，2我们在EESP单元中用1D卷积替换2D卷积网络FLOPsMiouSegNet [2]82 B57.0ContextNet [37]33 B66.1网络FLOPsMiouICNet [61]31 B69.5ERFNet [41]26 B69.7[27]第二十七话181B62.2[44]第四十四话21 B70.7DeepLabv3 [6]81 B80.49[45]第四十五话13.8 B61.5[45]第四十五话6.2 B58.3[第17话]14 B75.29ESPNet [32]4.5 B60.3[44]第四十四话5.8 B75.7ENet [36]3.8 B58.3ESPNet [32]2.2 B63.01ESPNetv 2-val（我们的）2.7 B66.4ESPNetv2- val0.76 B67.0ESPNetv2测试（我们2.7 B66.2ESPNetv2测试0.76 B68.09197网络属性学习计划性能HFFLRSC固定环状#参数FLOPsTop-1R1✗✗✓✗1.66百万84个月58.94R2✓✗✓✗1.66百万84个月60.07R3✓✓✓✗1.67 M86米61.20R4✓✓✗✓1.67 M86米62.17R5†✓✓✗✓1.67 M86米66.10表4：该表比较了我们模型的单个模型单词级困惑度与PennTreebank数据集测试集的最新技术较低的困惑值表示较好的性能。ERU可以通过严格的超参数搜索[33]和高级脱落[11，34]进一步改善。5. ImageNet数据集上的消融研究本节详细介绍了有助于ESPNetv2高效和准确的各种选择。不同卷积的影响：表5总结了不同卷积的影响。显然，深度方向扩张可分离卷积比扩张和深度方向卷积更有效分层特征融合（HFF）的影响：在[32]中，引入HFF以去除由膨胀卷积引起的网格伪影。在这里，我们研究它们对对象分类的影响。ESPNetv2网络在有和没有HFF的情况下的性能如表6所示（参见R1和R2）。HFF将分类性能提高了约1.5%，同时对网络的复杂性没有影响这表明HFF的作用是双重目的。首先，它消除了由膨胀卷积引起的网格伪影（如[32]所述其次，它可以在EESP单元的不同分支之间共享信息（参见图1c），从而使其能够学习丰富而强大的表示。远程快捷连接对输入的影响：为了查看快捷连接对输入图像的影响，我们训练了有和没有快捷连接的ESPNetv2结果见表6（见R2和R3）。显然，这些连接是有效和高效的，在对网络复杂性影响很小（或可以忽略不计）的情况下，将性能提高了约1%卷积FLOPstop-1扩张（标准）小行星47869.2深度可分离123米66.5深度扩张可分123米67.9表5：具有不同卷积的ESPNetv2。带有标准扩张卷积的ESPNetv2与ESPNet相同。表6：ESPNetv2在不同设置下的性能。这里，HFF表示分层特征融合，LRSC表示与输入图像的远程快捷连接。我们对ESPNetv2进行了90个epoch的训练，每30个epoch后，学习率下降10。对于固定的学习率调度，我们将学习率初始化为0.1，而对于循环，我们将ηmin和ηmax设置为0.1和0.5，在等式中。1分别。这里，†表示学习率时间表与第4.1节中的相同。固定与循环学习时间表：表6（R3和R4）显示了固定和循环学习时间表之间的比较。通过循环学习计划，ESPNetv 2网络在ImageNet数据集上的top-1验证准确率提高了约1%;这表明循环学习调度允许找到比固定学习调度更好的局部最小IMA。此外，当我们使用第4.1节中概述的学习时间表训练ESPNetv2网络更长时间（300个epoch）时，性能提高了约4%（参见表6中的R4和R5）。6. 结论我们介绍了一个轻量级和功率高效的网络，ESPNetv2，它可以通过从一个大的有效感受野学习表示来更好地编码图像中的空间信息。我们的网络是一个具有良好泛化能力的通用网络，可以用于各种任务，包括序列建模。我们的网络在不同的任务中提供了最先进的性能，如对象分类、检测、分割和语言建模，同时更节能。鸣谢：本研究由智能高级研究项目活动（IARPA）通过内部/内部商业中心（DOI/IBC）合同号D17 PC 00343、NSF III（1703166）、艾伦杰出研究者奖、三星GRO奖以及谷歌、亚马逊和彭博社的礼物提供支持。我们也感谢Rik Koncel-Kedziorski、David Wadden、Beibin Li和Anat Caspi提供的有益意见。美国政府被授权为政府目的复制和分发重印本，尽管其上有任何免责声明：本文所含的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA、DOI/IBC或美国的认可（无论是明示还是暗示）。政府的语言模型#参数困惑变分LSTM [11]20米78.6SRU [23]24 M60.3量化LSTM [58]–89.8QRNN [3]18米78.3[33]第三十三话24 M58.3AWD-LSTM [34]24 M57.3PRU [31]（标准脱落[48]）19米62.42AWD-PRU [31]（带重量脱落[34]）19米56.56ERU-Ours（标准脱落率[48]）7 M73.6315米63.479198引用[1] Renzo Andri，Lukas Cavigelli，Davide Rossi，and LucaBenini. Yodann：一种超低功耗二进制权重cnn加速架构。IEEE Transactions on Computer集成电路和系统的辅助设计，2018年。2[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。TPAMI，2017。7[3] James Bradbury，Stephen Merity，Caiming Xiong，andRichard Socher.类递归神经网络在ICLR，2017。七、八[4] 韩才、朱立庚、宋涵。ProxylessNAS：在目标任务和硬件上直接搜索神经架构。2019年，在ICLR。2[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，2018年。6[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 7[7] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在CVPR，2017年。5[8] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。6[9] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二进制神经网络：训练权重和激活限制为+1或-1的神经网络。arXiv预印本arXiv：1602.02830，2016。2[10] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊6[11] 亚林·加尔和祖宾·加赫拉马尼。在递归神经网络中的一个理论上接地应用辍学在NIPS，2016年。七、八[12] Song Han，Hu

下载后可阅读完整内容，剩余1页未读，立即下载