ESPNet：一种高效的卷积神经网络用于语义分割

75 浏览量更新于2023-10-13 收藏 2.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ESPNet：用于语义分割的Sachin Mehta1[0000−0002−5420−4725]、Mohammad Rastegari2、AnatCaspi1、Linda Shapiro1和Hannaneh Hajishirzi11University of Washington，Seattle，WA，USA{sacmehta，caspian，shapiro，hannaneh}@ cs.washington.edu2美国华盛顿州西雅图艾伦人工智能和XNOR研究所mohammadr@allenai.org抽象。我们介绍了一种快速，高效的卷积神经网络，ES-PNet，资源约束下的高分辨率图像的语义分割。ESPNet基于一个新的卷积模块，高效空间金字塔（ESP），它在计算，内存和功率方面都很高效。ES-PNet比最先进的语义分割网络PSPNet快22倍（在标准GPU上），小180倍，而其分类准确率仅低8%我们在各种语义分割数据集（包括Cityscapes、PASCALVOC和乳腺活检全载玻片图像数据集）上评估了ESPNet在相同的内存和计算限制下，ESPNet在标准指标和我们新引入的衡量边缘设备效率的性能指标上都优于所有当前高效的CNN网络，如MobileNet、ShuffleNet和ENet我们的网络可以在标准GPU和边缘设备上分别以每秒112帧和9帧的速度处理高分辨率图像。我们的代码是开源的，可在https://sacmehta.github.io/ESPNet/上获得。1介绍深度卷积神经网络（CNN）模型在视觉场景理解任务中实现了高精度[1-3]。虽然这些网络的准确性随着其深度和宽度的增加而提高，但大型网络速度慢且耗电。这在语义分割的计算繁重的任务上尤其成问题[4-10]。例如，PSPNet [1]具有6570万个参数，并且在以77瓦的速率对标准笔记本电脑的电池放电时以约1FPS运行。许多先进的现实世界应用，如自动驾驶汽车、机器人和增强现实，都是敏感的，需要在边缘设备上本地在线处理数据这些精确的网络需要巨大的资源，并且不适合于具有有限的能量开销、限制性的存储器约束和降低的计算能力的边缘设备卷积因子分解已经证明了它在降低深度CNN的计算复杂性方面的成功[11本文介绍了一种基于卷积分解的高效卷积2梅塔等人K（一）ESP策略减少分割变换合并（b）第（1）款图1：（a）将标准卷积层分解为逐点卷积和扩张卷积的空间金字塔，以构建有效的空间金字塔（ESP）模块。(b)ESP模块框图ESP模块的大的有效感受野引入网格伪影，其使用分层特征融合（HFF）被去除在输入和输出之间添加了一个跳过连接，以改善信息流。更多详情请参见第3扩张卷积层被表示为（#输入通道，有效核大小，#输出通道）。扩张卷积核的有效空间维数是nk×nk，其中nk=（n−1）2k−1+ 1，k = 1，···，K。请注意，只有n×n个像素参与膨胀的卷积核。在我们的实验中，n= 3，d= M。原则（图）①的人。基于这些ESP模块，我们引入了一个高效的网络结构，ESPNet，可以很容易地部署在资源受限的边缘设备。ESP-Net速度快、体积小、功耗低、延迟低，但仍能保持分割精度.ESP基于卷积因子分解原理，该原理将标准卷积分解为两个步骤：（1）逐点卷积和（2）扩张卷积的空间金字塔，如图所示。1.逐点卷积有助于减少计算，而扩张卷积的空间金字塔对特征图进行重新采样以从大的有效感受野学习表示我们表明，我们的ESP模块比其他因式分解形式的卷积更有效，例如Inception [11在相同的内存和计算限制下，ESPNet优于MobileNet [16]和ShuffleNet [17]（基于因子分解原理构建的另外我们注意到现有的空间金字塔方法（例如[3]中的空间金字塔模块）在计算上是昂贵的，并且不能在不同的空间级别用于学习表示。与这些方法相比，ESP在计算上是高效的，并且可以在CNN网络的不同空间级别处使用。基于扩张卷积的现有模型[1，3，18，19]是大而低效的，但我们的ESP模块推广了扩张卷积的使用。以新颖而有效的方式进行卷积为了分析边缘设备上CNN网络的性能，我们引入了几个新的性能指标，例如对GPU频率的敏感度和扭曲执行效率。为了展示ESPNet的强大功能，我们在人工智能和计算机视觉中最昂贵的任务之一上评估了我们的模型：语义切分ESPNet被证明比ENet [20]更准确，更高效，更快，ENet是最节能的语义分割网络之一，同时学习类似数量的参数。我们的研究结果还表明，ESPNet学习可概括的表示，并在看不见的数据集上优于ENet [20]和另一个高效的网络ERFNet[21]。ESPNet可以在NVIDIA TitanX、GTX-960 M和Jetson TX 2上分别以每秒112、21和9帧的速率处理高分辨率RGB图像M，1×1，dd，n 1 × n 1，dd，n2× n2，dd，n3 × n3，d···d，nK× nK，d总和总和ConcatSumHFFESPNet：用于语义分割的高效扩展卷积空间金字塔32相关工作不同的技术，如卷积因子分解，网络压缩和低比特网络，已经被提出来加速CNN。我们，首先，简要描述这些方法，然后提供一个简短的概述基于CNN的语义分割。卷积因子分解：卷积因式分解将卷积运算分解为多个步骤以降低计算复杂度。这种分解已经成功地显示出其在降低深度CNN网络（例如，Inception [11-13]，factorized network [22]，ResNext [14]，Xception [15]和MobileNets [16]）。ESP模块也建立在这种因式分解原则上。ESP模块将卷积层分解为逐点卷积和扩张卷积的空间金字塔。这种分解有助于降低计算复杂度，同时允许网络从大的有效感受野学习表示。网络压缩：构建高效网络的另一种方法是压缩。这些方法使用散列[23]，修剪[24]，矢量量化[25]和收缩[26，27]等技术来减少预训练网络的大小。低位网络：向高效网络的另一种方法是低比特网络，其量化权重以减小网络大小和复杂度（例如，网络的权重可以被量化）。[28-31]）。稀疏CNN：为了去除CNN中的冗余，已经提出了稀疏CNN方法，例如稀疏分解[32]，结构稀疏学习[33]和基于字典的方法[34]。我们注意到，基于压缩的方法，低比特网络和稀疏CNN方法同样适用于ESPNet，并且是对我们工作的补充。扩张卷积：扩张卷积[35]是标准卷积的一种特殊形式，其中通过在卷积核中的每个像素之间插入零（或孔）来增加核的有效感受场。对于一个n×n膨胀卷积核，其膨胀率为r，核的有效大小为[（n−1）r+ 1]2。膨胀率指定像素之间的零（或孔）的数量但由于对于膨胀，只有n×n个像素参与卷积运算，在增加有效核大小的同时降低了计算成本。Yu和Koltun [18]以增加的膨胀率堆叠膨胀的卷积层，以从大的有效感受野学习上下文表示在[19，36，37]中采用了类似Chen等人。 [3]介绍了一个atrous空间金字塔（ASP）模块。这个模块可以看作是[3]的并行化版本这些模块在计算上是低效的（例如，ASP对内存的要求很高，需要学习更多的参数;见3.2节）。我们的ESP模块还并行使用扩张卷积学习多尺度表示;然而，它在计算上是高效的，并且可以在CNN网络的任何空间级别处使用。用于语义分割的CNN：已经提出了不同的基于CNN的分割网络，例如多维递归神经网络[38]、编码器-解码器[20，21，39，40]、超列[41]、基于区域的表示[42，43]和级联网络[44]。与这些网络一起使用的几种支持技术已用于实现高准确性，包括集成特征[3]，多阶段训练[45]，来自其他数据集的额外训练数据[1，3]，对象建议[46]，基于CRF的后处理[3]和基于金字塔的特征重新采样[14梅塔等人K编码器-解码器网络：我们的工作与这一行有关。编码器-解码器网络首先通过执行卷积和下采样操作来学习表示然后通过执行上采样和卷积操作来解码这些表示ESPNet首先学习编码器，然后附加一个轻量级解码器来产生分割掩码。这与现有的网络形成对比，在现有的网络中，解码器是编码器的精确复制品（例如，编码器）。[39]）或与编码器（例如，[20，21]）。特征重采样方法：特征重采样方法使用不同的池化率[1，2]和核大小[3]以相同的尺度对卷积特征图进行重采样，以进行有效的分类。特征重采样在计算上是昂贵的，并且仅在分类层之前执行以学习尺度不变表示。我们引入了一个计算效率高的卷积模块，允许在CNN网络的不同空间级别进行特征重采样。3ESPNet我们描述了ESPNet及其核心ESP模块。我们将ESP模块与类似的CNN模块进行比较，Inception [113.1ESP模块ESPNet基于高效空间金字塔（ESP）模块，这是一种卷积的因式分解形式，将标准卷积分解为逐点卷积和扩张卷积的空间金字塔（见图1）。1a）。逐点卷积应用1×1卷积将高维特征映射投影到低维空间。然后，扩张卷积的空间金字塔对这些低维数据进行重新采样。同时使用K，n×n个膨胀卷积核的特征映射，每个膨胀率为2k−1，k={1， ·· ·，K}。这种因子化大大减少了ESP模块所需的参数和内存，同时保留大量有效感受野Σ（n−1） 2K−1Σ2+1 .该金字塔卷积运算是称为扩张卷积的空间金字塔，因为每个扩张卷积内核学习具有不同感受域的权重，因此类似于空间金字塔。标准卷积层采用输入特征图Fi∈RW×H×M并应用N个核K∈Rm×n×M，以产生输出特征图Fo∈RW×H×N，其中W和H表示特征图的宽度和高度，m和n表示特征图的宽度和高度。核的高度，并且M和N表示输入和输出特征通道的数量。为了简单起见，我们假设m=n。因此，标准卷积核学习n2MN个参数。这些参数与n×n核的空间维度以及输入M和输出N通道的数量成乘法宽度除法器K：为了减少计算成本，我们引入了一个简单的超参数K.K的作用是均匀地收缩特征图的维度跨网络中的每个ESP模块。减少：对于给定的K，ESP模块首先使用逐点卷积将特征图从M维空间减少到N维空间（图1中的步骤11a）。拆分：低维特征映射被拆分为K个并行分支。转换：每个分支然后处理这些特征ESPNet：用于语义分割的高效扩展卷积空间金字塔5M+ n2NRGB无HFF有HFF(a)（b）第（1）款图2：（a）示出了具有单个有效像素（红色）的网格伪影的示例，该单个有效像素与具有扩张率r=2的3× 3扩张卷积核进行（b）具有和不具有分层特征融合（HFF）的ESP模块的特征图的可视化ESP中的HFF消除了网格伪影。最好用彩色观看。同时使用具有不同扩张率g i v en的n × n个扩张卷积核映射2k−1，k={1， ·· ·，K−1}（图2中的步骤2）。1a）。方法：将K个并行扩张卷积核的输出级联以产生N维卷积核。输出特征图图1b显示了reduce-split-transform-merge策略。ESP模块具有（NM+（Nn）2）/K参数，其有效感受野为（（n−1） 2K−1+1）2。与标准卷积的n2NM个参数相比，对其进行因式分解将参数的数量减少了n2MK倍，同时增加了有效感受野为2K−1。例如，ESP模块学习3。对于n=3，N=M=128，K=4，有效感受野为17× 17的参数比有效感受野为3× 3的标准卷积核少6倍用于去网格化的分层特征融合（HFF）：虽然连接扩张卷积的输出为ESP模块提供了大的有效感受野，但它引入了不需要的棋盘或网格伪影，如图所示。2. 解决为了消除ESP中的网格伪影，使用不同膨胀率的内核获得的特征图在连接它们之前被分层添加（图1中的HFF）（见第1b段）。这种简单有效的解决方案不会增加ESP模块的复杂性，与通过使用扩张卷积核学习更多参数来去除网格伪影的现有方法相比[19，37]。为了改善网络内部的梯度流，输入和输出特征图使用逐元素求和进行组合[47]。3.2与其他CNN模块的关系ESP模块与以下CNN模块具有相似性。MobileNet模块：MobileNet模块[16]，如图所示。3a，使用深度可分离卷积[15]，将标准卷积分解为深度卷积（变换）和点卷积（扩展）。与ESP模块相比，它学习的参数少，内存要求高，感受野低。ESP模块的极端版本（K=N）与MobileNet几乎相同6梅塔等人K卷积型深度方向分组标准M、3× 3、MM、1× 1、NMobileNet(a) MobileNet(b) ShuffleNet(c) 成立(d) ResNext模块#参数内存（MB）有效感受野MobileNetM（n2+N）=11，009（M + N）WH =2。39[n]2=3 ×3ShuffleNetd（M+N）+n2d=2 180GWH（2 * d + N）=1。67[n]2=3 ×3成立K（Md+n2d2）=28， 0002千瓦时d= 2。39[n]2=3 ×3ResNextK（Md+d2n2+dN）=38，000KWH（2d+N）=8。37[n]2=3 ×3Σ ΣASPKMNn2=450，000KWHN= 5。98（n−1） 2K−1+ 12=33×33ESP（图第1b项）Md+Kn2d2=20， 000WHd（K +1）=1。43Σ Σ2（n−1） 2K−1+ 1=33×33(e) ASP这里，M = N = 100，n = 3，K = 5，d = N = 20，g = 2，W = H = 56。(f) 不同模块图3：不同类型的卷积模块进行比较。我们将层表示为（#输入通道，内核大小，#输出通道）。（e）中的扩张速率指示在每层的顶部。这里，g表示分组卷积中卷积组的数量[48]。为了简单起见，我们仅在（d）中报告卷积层的存储器为了将所需的内存转换为字节，我们将其乘以4（1个浮点数需要4个字节用于存储）。模块，不同之处仅在于卷积运算的顺序在MobileNet模块中，空间卷积之后是逐点卷积;然而，在ESP模块中，逐点卷积之后是空间卷积。ShuffleNet模块：ShuffleNet模块[17]，如图所示。3b，基于缩减-变换-扩展的原理。它是ResNet中瓶颈块的优化版本[47]。为了减少计算，Shufflenet使用分组卷积[48][15][16][17][18][19][19] 它将ResNet中瓶颈块中的1× 1和3× 3卷积分别替换为1× 1分组卷积和3× 3深度可Shufflenet模块学习的参数要比ESP模块，但具有更高的存储器要求和更小的接收场。初始化模块：Inception模块[11 -13]基于split-reduce- transform-merge的原则构建，并且通常在通道数量和内核大小方面是异构的（例如，一些模块由标准卷积和因子卷积组成）。相比之下，ESP模块设计简单明了。为了比较，Inception模块的同类版本如图所示。3c.图3f比较了Inception模块和ESP模块。ESP（1）学习较少的参数，(2)具有较低的记忆要求，和（3）具有较大的有效感受野。ResNext模块：ResNext模块[14]，如图1所示。3d是ResNet [47]中瓶颈模块的并行版本，基于split-reduce-transform- expand-merge的原理。ESP模块在分支和残差求和方面类似，但在记忆和参数方面更有效，具有更大的有效感受野。Atrous空间金字塔（ASP）模块：ASP模块[3]，如图所示。3e，建立在分裂-变换-合并的原理上。ASP模块涉及分支，每个分支学习内核在不同的感受野（使用扩张卷积）。虽然ASP模块往往表现良好的分割任务，由于其高效的感受野，ASP模块有很高的内存要求，并学习更多的参数。与ASP模块不同，ESP模块是计算高效的。M，1× 1，dd，3× 3，dd，1× 1，NM，1 × 1，dM，1 × 1，d···M，1× 1，dd， n× n， dd， n× n， d··· d，n× n， dM，1 × 1，dM，1 × 1，d···M，1× 1，dd，n × n，dd，n × n，d···d，n× n，d d，1 × 1，Nd，1 × 1，N···d，1 × 1，N总和总和20212K−1M， n× n， NM， n× n， N··· M，n× n， NESPNet：用于语义分割的高效扩展卷积空间金字塔784实验为了展示ESPNet的强大功能，我们评估了ESPNet4.1实验装置网络结构：ESPNet使用ESP模块来学习卷积核以及下采样操作，除了第一层：一个标准的大步回旋。除了最后一个逐点卷积之外，所有层后面都是批次归一化[49]和PReLU [50]非线性，其既没有批次归一化也没有非线性。最后一层输入softmax进行像素分类。ESPNet的不同变体如图所示4.第一章第一种变体ESPNet-A（图4a）是一种标准网络，其将RGB图像作为输入，并使用ESP模块学习不同空间级别3的表示以产生分割掩模。第二种变体ESPNet-B（图1）。4 b），通过在先前的跨步ESP模块和先前的ESP模块之间共享特征图来改善ESPNet-A内部的信息流第三种变体ESPNet-C（图1）。4c），增强ESPNet-B内部的输入图像，以进一步改善信息流。这三个变量产生其空间维度是输入图像的第1输出。第四个变体，ESPNet（图图4d），将轻量解码器（使用减少-上采样-合并的原理构建）添加到ESPNet-C，其输出与输入图像相同的空间分辨率的分割掩码。为了在不改变网络拓扑的情况下为边缘设备构建更深的计算高效网络，超参数α控制网络的深度; ESP模块在空间级l上重复α l次。CNN在更高的空间级别（在l=0和l=1）需要更多的存储器，因为在这些级别的特征图的高空间维度为了提高内存效率，ESP和卷积模块在这些空间层次上重复。数据集：我们在Cityscapes数据集[6]上评估了ESPNet，这是一个城市视觉场景理解数据集，由2，975个训练，500个验证和1，525个测试高分辨率图像组成。该任务是将图像分割成属于7个类别（例如，19个类别）的19个类别。人和骑手类属于同一类别人类）。我们使用Cityscapes在线服务器在测试集上评估了我们的网络。为了研究可推广性，我们在一个看不见的数据集上测试了ESPNet。我们使用Mapillary数据集[51]进行这项任务，因为它的多样性。我们将验证集（#2，000个图像）中的注释（65个类）映射到Cityscape数据集中的七个类别。为了进一步研究我们模型的分割能力，我们在来自不同领域的另外两个流行数据集上训练和测试了ESPNet。首先，我们使用了广为人知的PASCAL VOC数据集[52]，其中包含1，464张训练图像，1，448张验证图像和1，456张测试图像。任务是将图像分割成20个前景类。我们使用PASCAL VOC在线服务器在测试集（comp6类别）上评估我们的网络按照惯例，我们使用了额外的图像3在每个空间级别l，特征图的空间维度相同。为了学习不同空间水平的表示，执行下采样操作（参见图1B）。（见第4a段）。8梅塔等人RGB图像RGB图像RGB图像RGB图像分割掩码L=分割掩码(a) ESPNet-A分割掩码(b) ESPNet-B分割掩码(c) ESPNet-C(d) ESPNet图4：从ESPNet-A到ESPNet的路径。红色框和绿色框分别表示负责下采样和上采样操作的模块。空间级l在（a）中的每个模块的左侧指示。我们将每个模块表示为（#输入通道，#输出通道）。这里，Conv-n表示n×n卷积。[53，54]。其次，我们使用了乳腺活检全载玻片图像数据集[36]，选择该数据集是因为生物医学图像中的组织结构在大小和形状上不同，并且因为该数据集允许我们检查从大的感受野学习表示的潜力。该数据集由30个训练图像和28个验证图像组成其平均尺寸为10，000×12，000像素，比自然场景图像大得多。任务是将图像分割成8个生物组织标签;详情见[36]。绩效评估指标：大多数传统的CNN从准确性、延迟、网络参数和网络大小方面衡量网络性能[16，17，20，21，55]。这些指标提供了有关网络的高级洞察，但无法证明在可用性有限的情况下硬件资源的有效使用。除了这些指标之外，我们还引入了几个系统级指标来表征CNN在资源受限设备上的性能[56，57]。分割准确度被测量为地面实况和预测的分割掩码之间的平均交集（mIOU）分数。延迟表示CNN网络处理图像所需的时间。这通常以每秒帧数（FPS）来衡量。网络参数表示由网络学习的参数的数量。网络大小表示存储网络参数所需的存储空间量。高效的网络应该具有较小的网络规模。功耗是网络在推理期间消耗的平均功率。对GPU频率的敏感度测量应用的计算能力，并且被定义为执行时间的百分比变化与GPU频率的百分比变化的比率值越高表示效率越高。0（3、16）l=1Conv-3(16、L=2ESP(64、64）ESPL=2×α2(64，128）L=3ESP(128，128）ESPL=3×α3(128、C）（3、16）Conv-3(16、64）ESP(64、64）ESP×α2Concat(128，128）ESP(128，128）ESP×α3Concat(256、（3、16）Conv-3Concat(19、64）ESP(64、64）ESP×α2Concat(131，128）ESP（128，128）ESP×α3Concat(256、C）Conv-1（3、16）Conv-3（C、C）去卷积（2C，C）(19、C）ConcatConv-1（19，64）ESP(64、64）ESP×α2(131、C）ConcatConv-1（131，128）ESP(128，128）ESP×α3Concat（C、C）（2C，C）ESPConcat（C、C）ESPNet：用于语义分割的高效扩展卷积空间金字塔9利用率衡量在边缘设备上运行时计算资源（CPU、GPU和内存）的利用率。特别地，边缘设备（例如，移动设备）中的计算单元可以被配置为执行以下操作：Jetson TX2）在CPU和GPU之间共享内存。线程束执行效率被定义为每个执行的线程束中活动线程的平均百分比。GPU将线程调度为线程束;每个线程以单指令多数据方式执行较高的值表示GPU的有效使用。存储器效率是请求/存储的字节数与从/向设备（或共享）存储器传输以满足加载/存储请求的字节数的比率。由于内存事务是以块为单位的，因此该度量内存带宽效率。培训详情：ESPNet网络使用PyTorch [58]与CUDA 9.0和cuDNN后端进行训练。使用ADAM [59]，初始学习率为0。0005，并且在每100个时期之后衰减2，并且权重衰减为0.0005。一个在交叉熵损失函数中使用逆类别概率加权方案在[20，21]之后，随机初始化权重。标准的策略，如缩放，裁剪和翻转，用于增加数据。Cityscape数据集中的图像分辨率为2048× 1024，所有精度结果均在此分辨率下报告为了训练网络，我们对RGB图像进行二次采样。当输出分辨率小于2048× 1024时，采用双线性插值法对输出进行上采样。为了在PASCAL数据集上进行训练，我们使用了512×512的固定图像大小。对于WSI数据集，遵循分块训练方法[36]。ESPNet的培训分两个阶段进行。首先，ESPNet-C使用下采样的注释进行训练。其次，在ESPNet-C上附加一个轻量级解码器，然后训练整个ESPNet网络。三种不同的GPU设备用于我们的实验：（1）具有NVIDIA TitanX GPU（3，584个CUDA核心）的台式机，（2）具有NVIDIA GTX-960 M GPU（640个CUDA核心）的膝上型计算机，以及（3）具有NVIDIA Jetson TX 2（256个CUDA核心）的边缘设备。除非另有明确说明，否则统计数据是针对RGB图像大小为1024× 512，平均超过200次试验。为了收集硬件级统计数据，NVIDIA[60][61]和PowerTop [62]。在我们的实验中，我们将把α2= 2和α3= 8的ESPNet称为ESPNet，除非另有明确说明。4.2Cityscape数据集上的分割结果与高效卷积模块的比较：为了理解ESP模块，我们将ESPNet-C中的ESP模块替换为最先进的高效卷积模块，如图所3（MobileNet [16]，ShuffleNet [17]，Inception [11我们没有与ASP [3]进行比较，因为它计算量大，不适合边缘设备。图5 比较了 ESPNet- C与不同卷积模块的性能我们的 ESP 模块分别比MobileNet和ShuffleNet模块高出7%和12%，同时学习了类似数量的参数，并具有相当的网络大小和推理速度。此外，ESP模块更有效地提供了与ResNext和Inception相当的准确性一个基本的ResNet模块（两个3 × 3卷积的堆栈，带有跳过连接）提供了最佳性能，但必须学习6。5×更多参数。10梅塔等人K(a) 精度与网络大小（b）准确度与速度（笔记本电脑）图5：最先进的高效卷积模块之间的比较为了在不同模块之间进行公平比较，我们使用K= 5，d=N，α 2= 2，α 3= 3。我们使用标准步幅卷积进行下采样。对于ShuffleNet，我们使用g=4和K=4，因此得到的ESPNet-C网络具有与ESP块相同的复杂性。与分割方法的比较：我们比较了ESPNet与最先进的语义分割网络的性能。这些网络使用预先训练的网络（VGG[63]：FCN-8 s [45]和SegNet [39]，ResNet[47]：DeepLab-v2[3][2019 - 05 - 15][2019 - 05][2019 - 0ESPNet比ENet [20]准确2%，而运行1。27× 1。在台式机和笔记本电脑上分别快16倍（图（六）。ESPNet在属于同一类别的类之间会犯一些错误，因此具有较低的类准确性。例如，骑手可能会与人混淆怎么-ESPNet提供了良好的分类准确性。ESPNet的类别mIOU比PSPNet低8%[1]，而学习的参数少180倍 ESPNet具有较低的功耗，较低的电池放电率，并且比最先进的方法快得多，同时仍然实现了具有竞争力的分类准确性;这使得ESPNet适合于边缘设备上的分段。ERFNet是另一种有效的分割网络，具有良好的分割精度，但具有5。5×更多参数是5。44倍大，耗电更多，电池放电比ESPNet更高。此外，ERFNet不利用有限的可用硬件资源在边缘设备上高效运行（第4.4节）。4.3其他数据集上的分割结果不可见数据集：表1a比较了ESPNet与ENet [20]和ERFNet [21]在看不见的数据集上的性能。这些网络在Cityscapes数据集[6]上进行了训练，并在Mapillary（看不见的）数据集[51]上进行了测试。选择ENet和ERFNet是因为ENet的效率和功能以及ERFNet的高准确性。我们的实验表明，ESPNet学习对象的良好概括表示，并在看不见的数据集上优于ENet和ERFNet。PASCAL VOC 2012数据集：（表1c）在PASCAL数据集上，ESPNet比SegNet准确4%，SegNet是PASCAL VOC上最小的网络之一，同时学习的参数少81倍。ESPNet的准确性比PSPNet（PASCAL VOC上最准确的网络之一）低22%，而学习的参数少180倍乳腺活检数据集：（表1d）在乳腺活检数据集上，ESPNet在学习9时达到了与[36]相同的准确度。5×更少的参数。ESPNet：用于语义分割的高效扩展卷积空间金字塔11Miou#参数◦ENet[20]0.330.364ERFNet[21]0.252.06ESPNet0.400.364模型ESPNet SegNet RefineNet DeepLab PSPNet LRR Dilation-8 FCN-8s（Ours）[ 39][44][3][1][18][19][19]#参数◦0.36429.542.644.0465.748141.13134.5Miou63.0159.1082.4079.7085.4079.3075.3067.20模型模块Miou参数◦SegNet [39]VGG37.612.80梅塔等人[36个] ResNet 44.2026.03ESPNetESP44.032.75(a) 测试集（b）准确度与网络大小（c）准确度与#参数(d)电池放电率与网络（笔记本电脑）（e）准确性与速度（笔记本电脑）(f)功耗与速度（笔记本电脑）（g）功耗与速度（桌面）图图6：在两个不同设备上的Cityscape测试集上的分割方法之间的比较所有网络（FCN-8 s [45]，SegNet[39]，SQNet [64]，ENet [20]，DeepLab-v2 [3]，PSPNet [1]和ERFNet [21]）都没有CRF，并转换为PyTorch进行公平比较。(a)Mapillary验证集[51]（b）Mapillary验证集[51]（不可见）(c)PASCAL VOC测试集[52]（d）乳腺活检确认集[36]表1：不同数据集上的结果，其中表示值以百万计参见[66]。4.4NVIDIA Jetson TX2（边缘设备）网络大小：图7a将ESPNet的未压缩32位网络大小与ENet和ERFNet进行比较。ESPNet有一个1。12 × 5。比ENet和ERFNet分别小45倍，这很好地反映了ESPNet的架构设计。mI欧网络类类别ENet[20]58.380.4ERFNet[21]68.086.5SQNet[27]59.884.3SegNet[39]57.079.1ESPNet（我们的）60.382.2FCN-8s[39]65.385.7DeepLab-v2[3]70.486.4PSPNet[1]78.490.612梅塔等人推理速度和对GPU频率的敏感度：图7b比较了ESPNet与ENet和ERFNet的推理速度。ESPNet的帧速率与ENet几乎相同，但它对GPU频率更敏感（图1）。第7c段）。因此，ESPNet在高端图形卡（如GTX-960 M和TitanX）上实现了比ENet更高的帧速率（见图1）。（六）。例如，ESPNet为1。比ENet快27倍NVIDIA TitanX.在NVIDIA Jetson TX2上，ESPNet比ERFNet快3倍利用率：图7 d比较吞吐量密集型网络的CPU、GPU和存储器利用率;对于这些网络，GPU利用率高，而CPU利用率低。内存利用率显着不同，这些网络。与ENet和ERFNet相比，ESPNet的内存占用量较低，这表明ESPNet适用于内存受限的设备。Warp执行效率：图7e比较了ESPNet与ENet和ERFNet的Warp执行效率。ESPNet的翘曲执行比ENet高约9%，比ERFNet高约14%。这表明ESPNet具有较少的翘曲发散，并促进了边缘设备上可用的有限GPU资源的有效利用我们注意到，翘曲执行效率比GPU利用率更好地洞察GPU资源的即使很少线程束处于活动状态，GPU频率也会很忙，从而导致GPU利用率很高。内存效率：（图7e）所有网络具有相似的全局加载效率，但ERFNet具有较差的存储和共享内存效率。这可能是由于ERFNet花费20%的计算能力执行内存对齐操作，而ESPNet和ENet分别花费4.2%和6.6%的时间执行此操作功耗：图7f和7g比较了ESPNet与ENet和ERFNet在两个不同GPU频率下的功耗。ESPNet、ENet和ERFNet的平均功耗（在网络执行阶段）分别为1 W、1.5 W和1.5 W。GPU频率为824 MHz时为2.9 W，GPU频率为1,134 MHz时分别为2.2 W、4.6 W和6.7 W;这表明ESPNet是一个节能网络。网络大小eNet1.64兆字节ERFNet 7.95兆字节网络敏感性GPU频率828至1134 1134至1300eNet百分之七十一百分之七十ERFNet百分之六十九百分之五十三网络Util化的（%）CPU GPU 存储器eNet20.5 99.0050.6ERFNet 19.7 99.0061.3(a)（b）第（1）款（c）第（1）款（d）其他事项(e)（f）GPU频率@828 MHz(g)GPU频率@1，134 MHz图7：在NVIDIA Jetson TX2上具有ENet和ERFNet的ESPNet的性能分析：（a）网络大小，（b）推理速度与GPU频率（以MHz为单位），（c）灵敏度分析，（d）利用率，（e）效率率，以及（f，g）在两个不同GPU频率下的功耗。在（d）中，由于所有网络的相似性，未考虑初始化阶段统计。ESPNet：用于语义分割的高效扩展卷积空间金字塔134.5城市景观消融研究：从ESPNet-A到ESPNet的路径更大的网络或集成多个网络的输出可以提供更好的性能[1，3，19]，但使用ESPNet（如图所示）。4），目标是为边缘设备提供高效的网络。为了在保持效率的同时提高ESPNet的性能，对设计选择进行了系统的研究表2总结了结果。ReLU vs PReLU：（表2a）在ESPNet-A中用PReLU [50]替换ReLU [67]将准确度提高了2%，同时对网络复杂性的影响最小。ESP中的剩余学习：（表2b）ESPNet-A的精度下降了约2%，当在ESP中跳过连接时（图1b）模块被移除。这验证了剩余学习的有效性。下采样：（表2c）在ESPNet-A中用跨步ESP替换标准跨步卷积将精度提高了1%，参数减少了33%。宽度分割器（K）：（表2e）增加K扩大ESP模块的有效感受野，同时减少网络参数的数量。重要的是，ESPNet-A例如，将K从2提高到8会导致ESPNet-A的准确率下降11%。这种准确性的下降部分是由ESP模块的有效感受野增长超过其输入特征图的大小来解释的对于大小为1024× 512的图像，空间维度在空间水平l=2和l=3处的输入特征图的平均值分别为256×128和128 × 64，分别然而，一些内核具有更大的感受野（K = 8时为257 ×257）。这样的内核的权重对学习没有贡献，因此导致较低的准确性。在K=5时，我们发现参数数量和精度之间有很好的折衷，因此，我们在实验中使用K=ESPNet-A-ESPNet-C：（表2f）替换基于卷积的网络宽度ESPNet-A中的扩展操作与ESPNet-B im中的级联操作证明了大约1%的准确度，并且没有显著增加网络参数的数量。通过输入增强（ESPNet-C），ESPNet-B的精度提高了。（一）RL -残差学习（b）第（1）款下采样Miou#参数◦跨越式转换0.380.274步进式ESP0.390.183（c）第（1）款ESPNet-C配置ESP操作变化#参数网络规模Miou减少变换C1 -（α3=3）3× 3SPC0.2761.2 MB50.8C2 -（α3=3）1× 1SPC0.1870.8 MB的文件49.0C3 -（α3=3）1× 1SPC-s0.1870.8 MB的文件47.4（d）其他事项网络mIOU #参数◦α3（e）358（f）第（1）款（g）表2：从ESPNet-A到ESPNet的路径。这里，ERF表示有效感受野，表示使用跨步ESP进行下采样，†表示输入增强方法被输入感知融合方法[36]取代，表示值以百万为单位。（a-c，e-f）中的所有网络被训练100个时期，而（d，g）中的网络被训练100个时期。三百个纪元。这里，SPC-s表示在扩张卷积的空间金字塔（SPC）中使用3×模块Miou#参数◦ESP0.390.183-RL0.370.183Miou#参数◦ReLU0.360.183PReLU0.380.183宽度分隔器K245678Miou0.415 0.378 0.381 0.359 0.321 0.303#参数◦ERF（n2=n×n）0.358520.2151720.1833320.1656520.15212920.1432572ESPNet-C（图4c）ESPNet（图 4天）M

下载后可阅读完整内容，剩余1页未读，立即下载