没有合适的资源?快使用搜索试试~ 我知道了~
8553语义分割李彦伟1,2,宋林3,陈宇康1,2,李泽明4,张翔宇4,王新港1,孙建41中国科学院自动化研究所2中国科学院大学3西安摘要最近,许多手工制作和搜索的网络已被应用于语义分割。然而,以前的工作打算在预定义的静态架构中处理各种规模的输入,例如FCN,U-Net和DeepLab系列。本文研究了一种概念上的新方法,即动态路由,以减轻语义表示中的尺度变化所提出的框架产生数据依赖的路线,适应每个图像的规模discovery为此,提出了一种称为软条件门的可微分此外,通过对门控函数进行预算约束,可以以端到端的方式进一步降低计算成本我们进一步放宽了网络层的路由空间,以支持多路径传播和跳跃连接在每个转发,带来了大量的网络容量。为了证明动态属性的优越性,我们比较了几个静态架构,可以建模为路由空间中的特殊情况。在Cityscapes和PASCAL VOC 2012上进行了大量的实验,以 说 明 动 态 框 架 的 有 效 性 。 代 码 可 在https://github.com/yanwei-li/DynamicRouting获得。11. 介绍语义分割是计算机视觉领域中最基本也是最具挑战性的任务之一,其目的是为每个像素分配语义类别。语义分割中的问题之一来自输入之间的巨大规模差异,例如,微小的物体实例和充满图片的背景。同时,大的分布方差也给特征表示和关系建模带来了困难.传输方法试图通过设计良好的网络结构来解决这个问题 例如,多分辨率傅-1工作在Megvii Research完成。电子邮件地址:liyanwei2017@ia.ac.cn输入输出(a) 大规模输入的网络结构输入输出(b) 小规模输入的网络结构输入输出(c) 混合规模输入的网络结构图1.给定不同规模分布的输入,动态路由选择相应的前向路径.例如,大规模实例1(a)的架构可以忽略低级特征。小尺度对象1(b)可以依赖于低级别细节以及更高的分辨率。而混合尺度的物体1(c)会享受这两种连接模式。图中的红线表示它们之间的差异。对于面向细节的特征映射,采用sion [24,28,1,32,19],对于全局上下文建模,捕获长期依赖性[43,35,44,6,31]。随着神经结构搜索(NAS)的发展,有几项工作致力于自动搜索有效的语义分割结构[3,22,25]。然而,无论是经典的人工设计的网络和基于NAS的网络都打算在一个单一的网络架构中表示所有的实例,这缺乏对现实世界环境中不同规模分布的适应性一个例子是在图。1,其中实例的规模变化很大。为此,需要一个更可定制的网络来适应每个图像的比例变化。在本文中,我们提出了一个框架,这是概念-8554对于语义分割来说是新颖的,称为动态路由。特别地,动态路由在推理期间生成依赖于数据的前向路径,这意味着特定的网络架构随输入而变化。该方法可以将不同尺度的实例(或背景)分配到相应的分辨率级,进行自定义特征变换。如示于图1、不同尺度分布的输入图像会选择不同的特征变换路径。有一些关于动态网络的研究,通过丢弃块[38,17,33,36]或修剪通道[39,20]进行有效的对象识别。与它们不同的是,本文的工作侧重于语义表示,旨在减轻规模变化,并提高网络效率。用于图像分类的传统动态方法中的路由空间[17,33,36]通常是有限的到分辨率下降的流水线,这将不满足语义分割。我们从Auto-DeepLab [22]的搜索空间中汲取灵感,并开发了一个新的路由空间以获得更好的容量,其中包含几个独立的单元。具体而言,与Auto-DeepLab不同,在推理期间的每个转发中启用了多路径传播和跳过连接,这在语义分割中被证明是非常重要的[28,6]因此,几个经典的网络架构可以作为比较的特殊情况(图)。(3)第三章。在动态布线方面,设计了一种数据相关的布线门,称为软条件门,根据输入图像选择每条路径与建议的布线门,每个基本单元,以及分辨率转换路径,可以单独考虑此外,所提出的路由门可以被公式化为一个可微模块,用于端到端的优化。因此,给定有限的计算预算(例如,FLOPs),具有轻微贡献的细胞将被丢弃。整个方法,称为动态路由,可以很容易地实例化的语义分割。为了详细说明它在性能和效率方面优于固定结构,我们在第二节中进行了广泛的烧蚀研究和详细的分析。四点三。实验结果进一步报告了两个著名的 数 据 集 , 即 Cityscapes [9] 和 PASCAL VOC 2012[11]。通过简单的尺度变换模块,所提出的动态路由实现了与最先进的方法相当的结果,但消耗的资源要少得多。2. 相关作品传统的语义分割研究主要集中在根据人类经验设计微妙的网络架构[24,28,1,43,6]。随着NAS的发展,有几种方法试图自动搜索静态网络[3,22,25]。与以往的工作,动态路由提出了选择最根据输入进行适当的尺度变换,这一点很少被探索。在这里,我们首先回顾了手工设计的语义分割架构。然后,我们给出了一个介绍NAS为基础的方法。最后,对动态网络的发展进行了回顾.2.1. 手工建筑近年来,手工建筑得到了广泛的研究。有几项研究致力于语义分割的网络设计,例如,FCN [24],U-Net[28],Conv-Deconv [26],SegNet [1].基于精心设计的FCN [24]和U形架构[28],已经提出了许多工作来通过捕获更大的感受野[43,4,5,6,41]或建立全局上下文来建模。lishing pixel-wise关系[44,18,12,31]。由于密集预测的高资源消耗,为了提高效率,已经提出了一些轻量级架构,包括ICNet [42]和BiSeNet [40]。总体而言,手工架构旨在利用静态网络中不同阶段的多尺度特征,而不是动态地适应输入。2.2. 基于NAS的方法最近,神经架构搜索(NAS)已被广泛用于自动网络架构设计[45,27,23,2,13,7]。当涉及到特定领域时,有几种方法试图寻找更适合语义分割的有效架构。具体地说,Chen等人 [3]寻找多尺度模块来代替ASPP [5]块。此外,Nekrasov等人 [25]研究了辅助细胞的路由类型,解码器使用基于NAS的方法。最近,Auto-DeepLab [22]被提出从密集连接的搜索空间中搜索单个路由。与基于NAS的方法搜索单个体系结构然后重新训练不同,所提出的动态路由在不搜索的情况下动态生成前向路径。2.3. 动态网络动态网络,调整网络架构,以相应的输入,最近已经在计算机视觉领域的研究。传统方法主要通过丢弃块[38,17,33,36]或修剪通道[39,20]来进行图像分类,以进行有效的推理。例如,MSDNet [17]中采用了一种早期存在的策略,Skip- Net [36]尝试使用基于RL的门控网络跳过卷积块然而,动态路由很少被探索用于尺度转换,特别是在语义分割方面。为了充分利用网络的动态特性,本文提出了一种端到端的动态路由框架,以缓解网络输入的规模差异。8555SSSSSS图2.提出了语义分割的动态路由框架。左:具有层L和最大下采样率32的布线空间。开始STEM和最终上采样块是固定的,以保持稳定性。虚线表示动态路由的备选路径。右图:单元级别的动态路由过程。给定来自前一层的求和输入,我们首先使用软条件门生成激活权重。具有大于零的对应权重的路径被标记为激活的,这将被选择用于特征变换。有关网络的更多详细信息,请参见第2节。三点四分。最好用彩色观看。3. 学习动态路由与静态网络结构相比,动态路由具有网络容量大、性能高的优点。在本节中,我们首先介绍设计的布线空间。然后详细阐述了动态路由框架和约束机制。体系结构的细节将在本节的末尾给出。3.2. 路由过程给定多个独立节点的布线空间,我们采用一个基本单元和一个相应的门在每个节点内聚合多尺度特征和选择布线路径,分别。这一过程简要说明图。二、更具体地说,我们首先聚合三个具有不同空间大小(即s/2,s和2s)的输入,层l−1,分别表示为Yl−1、Yl−1和Yl−1。s/2s2s因此,第l层的输入Xl可以公式化为:3.1.路由空间SXl= Yl−1ll−1s/2+Ys+Y2s。然后,聚合输入将为为了释放动态路由的潜力,我们提供了在具有某些先验约束的情况下,例如,单元之间的上采样或下采样步幅,如图所示。二、 具体地说,用于Cell和Gate内部的特征转换。3.2.1电池运行根据网络设计的一般做法,输入Xl∈RB×C×W×H,我们采用了广泛使用的网络的开始是固定的3层这将分辨率降低到1/4比例。之后,一个空间堆叠的单独卷积以及每个单元中的恒等映射[46,23,22],没有铃声和口哨声。具有L层的设计用于动态路由,称为路由,特别地,隐藏状态H1∈RB×C×W×H可以是空间。 在路由空间中,相邻小区被限制为2个,这在基于ResNet的方法中被广泛采用。因此,最小比例被设置为1/32。 由于这些限制,表示为ΣHl=SOi∈OOi(Xl )(1)每层最多为4层。每个候选图像的尺度变换有3条路径,即上采样、保持分辨率和下采样。在每个候选者内部,基本单元被设计用于特征聚合,而基本门被提出用于路径选择,如图所示。二、逐层上采样模块固定在网络的末端以生成预测。有关动态路由过程的更多详细信息,请参见3.2.与Auto-DeepLab [22]不同,其中在推理阶段仅选择每个节点中的一个特定路径,我们进一步放松路由空间以支持每个候选中的多路径路由和跳过连接。有了更通用的空间,许多流行的架构可以被公式化为特殊情况,如图所示。3.第三章。进一步的定量比较在Sec.4.3恶魔-其中O表示操作集,包括SepConv3×3和身份映射。在这里,每个细胞内的操作用于基本特征聚合。然后根据激活因子αl将生成的特征图Hl变换到不同的尺度。下一节将详细阐述这一过程。此外,不同的细胞成分进行了比较。4.4.1.3.2.2软条件门每条路径的路由概率由门函数生成,如图1右图所示。二、更详细地,我们在门中采用轻加权卷积操作来学习数据依赖向量Gl。展示了动态路由的优越性。Gl=F(ωl,G(σ(N(F(wl,Xl))+βl(二)s s,2s, 1s s8556s→jb,s→jSjs→jSSLΣs→j输入路由空间输出ls→j=0,则从标度s到j的路由路径将为标记为关闭。所有αl>0的路径将被保留,从而实现多路径传播。 是更具体地说,批处理B中的第b个输入将生成cor,响应αl∈R1×1×1 ×1,表示路由输入(a) 以FCN-32 s为模型的网络架构[24]路由空间(b) 基于U-Net建模的网络架构[28]输出路径随输入而变化,或者所谓的数据相关。 在这样,可以单独考虑每条路径,而不是仅选择相对重要的一条进行传播[23,37,22]。此外,在第4.4.2节中研究了不同的激活函数。利用所提出的激活函数δ,训练过程中从尺度s到j∈{s/2,s,2s}的变换可以公式化为:Y1=α1Ts→j(H1)(4)输入路由空间输出js→j s其中Ts→j表示从尺度s到j的尺度变换(包括上采样、保持分辨率和下采样)。因此,有了激活因子αl,pa-将在反向传播期间优化Gl中的参数(c) 基于DeepLabV3建模的网络架构[5]sΣ只要保留一条路径(即,α l>0)。输入路由空间输出在推理阶段,如果所有路径都标记为关闭后,Cell中的操作将被删除,以节省计算占用空间。从Eq回忆1,该过程概括为Hl=S.XLΣs我ΣOi(Xl)js→j= 0αl>0(五)(d) 基于HRNetV2建模的网络架构[32]O∈O0js→j=0,js输入路由空间输出Y1=H1js→jαl=0,j=s(六)JSαlTs→j(Hl)js→j αl>0s→j sjs →j(e) 从Auto-DeepLab建模的网络架构[22]图3.从以前的作品抽样架构。 有了设计的布线空间,几种经典架构可以用类似的形式来表达,例如,FCN-32s3(a)、U-Net3(b)、DeepLabV33(c)、HRNetV23(d)和Auto-DeepLab3(e)。3.3. 预算约束考虑到现实场景中计算资源的有限性让我们将C表示为与预定义操作相关联的计算成本,例如,在一个实施例中,失败。从Eq回忆1、2和4中,我们将第s个尺度和第l层中节点内部的预期成本公式化为:C(节点1)= C(单元1)+ C(门1)+ C(传输1)ssl=max(αl) iC(Oi)+C(Gate)其中F(·,·)表示一个协变函数,σ表示ReLU激活,N和G分别代表批量归一化和全局平均池化。 ω和β都是sO∈Os+jαlC(Ts→j)l l l(七)卷积参数与传统的基于RL的方法[36,38,34]不同,该方法采用策略梯度来更新代理以进行离散路径选择,我们提出了用于可微分路由的软条件门本其中Cells、Gates和Transs表示功能操作。分别在Cell、Gate和Scale Transform中进行运算更进一步,整个布线空间的预期成本可以通过以下公式计算:最后,利用特征向量Gl∈RB×3×1×1,ΣC(空格)= ΣC(节点1)(8)干12345......L-2L-1L上采样干12345......L-2L-1L上采样干12345......L-2L-1L上采样ASPP干12345......L-2L-1L上采样干12345......L-2L-1L上采样ASPPαSα8557函数δ被设计为δ(·)=max(0,Tanh(·))(3)l≤Ls≤1/4然后我们用公式表示期望资源成本C(Space)因此,激活因子αl∈RB×3×1×1 可以转换为损失函数LC,用于端到端优化:L lS2由δ(Gs)计算,其中αs属于[0,1)。当LC=(C(Space)/C−µ)(九)8558SSSitermax其中C表示整个路由空间的实际资源成本,μ∈[0,1]表示设计的衰减因子。在不同的μ中,每个propa中的所选路径,将自适应地将Gation限制到相应的芽。不同预算约束下的网络性能将在第二节中讨论。4.4.3.总的来说,网络权重以及软条件门可以在统一框架中使用联合损失函数LL=λ1LN+λ2LC(10)其中LN和LC分别表示整个网络的损失函数和资源成本使用λ1和λ2分别平衡网络预测和资源成本期望的优化过程。3.4. 架构细节从宏观角度来看,我们将路由空间的深度设置为16或33,这与广泛使用的ResNet-50和ResNet-101 [16]中的深度相同图2中L=16或33。 这种设置为与基于ResNet的网络进行比较带来了方便,基于ResNet的网络可以直接使用所提出的路由空间来制定。当涉及到网络中的微节点时,我们在“STEM”块中采用了三个SepConv3×3所有s→s/2路径都使用了stride2 Conv1×1,既降低了特征分辨率,又使滤波器的数量增加了一倍对于所有s→2s连接,采用Conv1×1和双线性上采样,既提高了空间分辨率,又减少了一半的滤波器数量。此外,设计了一个朴素的解码器来融合最终预测的特征,这在图中表示为网络末端的灰色节点。二、具体来说,采用Conv1×1结合双线性上采样的方法进行特征从解码器中的不同尺度并且将尺度1/4中的预测上采样4以生成最终结果。卷积中的权重用正态分布初始化[15],而方程中的偏置βl2被实验性地初始化为常数值1.5。 当给定预算约束时,我们在等式中对输入Xl进行下采样。 2乘4倍,以减少门控功能的资源消耗。否则,输入Xl的分辨率保持不变。4. 实验在本节中,我们首先介绍所提出的动态路由的数据集和然后,我们对Cityscapes数据集进行了大量的消融研究[9]。并详细分析了各组分的作用最后,将报告与Cityscapes [9]和PASCAL VOC 2012数据集[11]上的几个基准的比较,以说明所提出的方法的有效性和效率。4.1. 数据集Cityscapes:Cityscapes [9]是一个广泛用于城市场景理解的数据集,它包含19个用于评估的类。该数据集包含5000个精细注释,大小为1024×2048,可分为2975、500和1525张图像,分别用于训练、验证和测试。它还有另外20k个粗略的注释用于训练,我们的实验中没有用到PASCAL VOC:我们在PASCAL VOC 2012数据集[11]上进行实验,该数据集包括20个对象类别和一个背景类。原始数据集包含1464、1449和1456张图像,分别用于训练、验证和测试。在这里,我们使用[14]提供的增强数据,得到10582张用于训练的图像。4.2. 实现细节在此,为了方便实现,报告了优化细节为了获得更好的性能,等式中的因子λ110设置为1.0。在Sec中,λ2是根据不同的初始约束条件而设定的4.4.3.网络优化使用SGD进行,权重衰减为1e−4,动量为0.9。类似于[5,40,31],我们采用在训练阶段,我们随机翻转和缩放每个图像0.5到2.0倍。根据实验设定采用不同的初始速率具体来说,当从头开始训练和使用ImageNet [10]预训练时,我们分别将初始速率设置为0.05和0.02。对于Cityscapes [9],我们从8个随机的768×768图像作物中构建每个小批量进行训练对于PASCAL VOC 2012 [11],16个随机512×512图像在每次迭代中采用裁剪进行优化。4.3. 动态路由为了证明动态路由的优越性,我们比较了动态网络与现有的几种架构和静态路由采样的路由空间。特别是,传统的人类设计的网络以及搜索的架构,包括FCN-32 [24],U-Net [28],DeepLabV 3 [5],HRNetV 2[32]和Auto-DeepLab [22],在路由空间中以类似的连接模式建模,如图所示。3.第三章。对于公平的比较parisons,我们对齐的计算开销与这些方法,给出不同的预算约束的损失函数方程。9 .第九条。因此,可以生成三种类型的动态网络(请参见第4.4.3详细说明),在表中表示为动态A、B和C1.一、与手工和搜索结构相比,本文提出的动态路由在相同的开销下获得了更好的性能。例如,考虑到45 G、55 G和65 G的预 算 限 制 , Dynamic-A 、 B 和 C 分 别 比 模 型 化 的DeepLabV 3 、 U-Net 和HRNetV 2 获 得5.8% 、 2.2%和2.1%的8559表1.与Cityscapes valset上的经典建筑进行比较 4.4.3. “公共”指示对应动态网络的公共连接模式。FLOPsAverage、FLOPsMax和FLOPsMin分别表示网络的Average、Maximum和Minimum FLOPs。所有的架构都是从设计的布线空间中取样,并在相同的设置下由我们自己进行评估。Linux DeepLabV3[5] 67.0 42.5 42.5 3.7输入输入输入路由空间(a) Common-A的网络架构路由空间(b) Common-B的网络架构路由空间输出输出输出从表中的比较中排除1.一、我们观察到,图中的公共网络的连接路由。4与几种已知的体系结构共享类似的趋势,例如,人类设计的U-Net [28]和基于NAS的Auto-DeepLab [22]。特别地,在网络的前部分中采用下采样操作,并且在网络的后部分中优选上采样操作。此外,在低级别阶段的高分辨率特征需要对象的细节(可视化图。1),这可能会导致更好的性能。4.4. 分量分析为了揭示所提出的方法中每个组件的效果,我们将在本节中逐步分解我们的方法。首先,将详细讨论细胞内的成分然后,我们研究了所提出的软条件门的激活函数最后将进一步说明不同资源预算的效果(c)Common-C的网络体系结构图4.常见的网络架构-A、B、C,这些架构是从选项卡中具有不同预算约束的动态模型中提取的。1,分别在4(a),4(b)和4(c)中可视化进一步提取前向推理保留率达95%以上的动态网络基本路径,构造相应的公共网络。常见网络的连接模式如图所示。4.第一章我们进一步比较了动态网络与常见架构(常见-A,B和C)在表。1.一、具体地说,在动态路由框架下,动态网络在每个预算约束下都比静态公共网络这可能是骗局-4.4.1电池部件为了与以前的架构进行公平的比较,每个单元内只使用基本的卷积运算和身份映射,没有铃声和口哨声。给出了几种经典操作的实验结果,包括Bot- tleNeck[16]、MBConv [29]和SepConv [8在选项卡中。二、我们发现当堆叠两个SepConv 3 ×3进行特征变换时,动态网络达到最佳性能,并且较重的操作不会带来更多的增益。我们猜测这可能是因为溃败-建筑结构起着比更重的操作更重要的作用。事实上,我们也用更大的内核进行实验(例如,SepConv5×5),但仅找到0.2%的绝对增益。因此,为了简单起见,我们在本文中只使用SepConv 3 ×3。干12345......L-2L-1L上采样干12345......L-2L-1L上采样干12345......L-2L-1L上采样方法动态模型来自mIoU(%)FLOPs平均值(G)FLOWMax(G)FLOPsMin(G)参数(M)✗[24]第二十四话66.935.135.135.12.9手工制作✗[第28话]71.653.953.953.96.1✗[32]第三十二话72.562.562.562.55.4搜索✗[22]第二十二话67.233.133.133.12.5通用-A✗动态-A71.641.641.641.64.1通用-B✗动态-B73.053.753.753.74.3通用-C✗动态-C73.257.157.157.14.5动态-A✓联系我们72.844.948.243.517.8动态-B✓联系我们73.858.763.556.817.8动态-C✓联系我们74.666.671.664.317.88560表2. Cityscapes valset上不同单元格组件之间的比较。“× 2”和“× 3”分别表示叠加2和3 SepConv3×3。由于动态路由的数据相关属性,我们在这里报告平均FLOP。图5.动态网络中路由激活概率的分布。在Dynamic-Raw中,大多数路径倾向于在没有预算约束的情况下保留。给定资源预算,动态A、B和C中将关闭0.80.60.4表3.Cityscapes valset上不同激活函数的比较由于动态路由的数据相关属性,我们在这里报告平均FLOP0.200 0.10.20.3 0.40.50.60.70.80.9 1门控探头表5.在Cityscapes上进行不同设置的实验,设置为单一尺度,没有翻转。‘ImageNet’ denotes ‘SDP’ indicates Scheduled Drop表4. Cityscapes价值集上不同资源预算之间的比较。λ2和μ表示预算约束系数,单位为Sec。三点三由于动态路由的数据相关属性,我们在这里报告平均FLOP网络修复372网络76.3动态372磅77.4网络修复558浏览量76.7动态原始0.0/0.0 76.1 119.5 17.84.4.2激活函数我们进一步比较了几个广泛使用的激活函数的建议软条件门在第二节。第3.2.2条。首先,路由空间中的所有路径都是固定的,没有区别,以制定我们的基线,即选项卡中的3 .第三章。然后,等式中的激活函数δ3由选项卡中的候选人替换。3直接我们发现,建议的max(0,Tanh)实现了更好的性能比别人。更重要的是,将每个单元中的三个路由路径一起考虑的Softmax激活的性能不如单独考虑的性能,例如,Sigmoid和max(0,Tanh)。这意味着每个路径都应该在软条件门中去耦然后,激活因子α>0的路径将在该前向推理期间被保留,如第2节所详述第3.2.2条。4.4.3资源预算在设计的选通函数下,通过调整参数λ2和μ,给出了不同的资源预算方案.如表所4、路由框架将生成几种类型的动态网络(动态A,B和C),如果给定不同 的 预 算 约 束 。 与 无 资 源 预 算 的 原 始 动 态 网 络( Dynamic-Raw ) 相 比 , Dynamic-C 的 成 本 降 低 到55.7%,性能下降很少。同时,Dynamic-C在有效性和效率方面仍然优于完全连接的Network-Fix。而在更强的约束条件下,资源成本可以进一步降低到37.6%(动态A)。此外,我们在图中给出了路由激活概率的分布。五、很明显,大多数路径倾向于保留在动态原始中。如果给定资源预算,将丢弃不同比例的路由,这可以从图5中的分布中了解到。因此,在推理过程中,动态路 由 将 切 断 无 用 的 路 径 以 及 我 们 在 Tab 中 找 到FLOPsMax和FLOPsMin1相对较小(10%),这可以归因于预算限制的影响。事实上,我们也尝试了不同类型的变异系数[30]来扩大差距,但发现性能较差。4.5. 城市景观实验我们仅使用精细注释在Cityscapes [9]数据集上进行实验。在选项卡中。5、在几种列车运行情况下,对固定骨干网和动态骨干网进行了动态原始动态C动态B动态A比例电池运行mIoU(%)FLOPs(G)参数(M)[第16话]73.71134.8203.9[29]第二十九话75.0323.848.2SepConv3×371.281.412.6SepConv3×3×276.1119.517.8SepConv3×3×375.2153.822.9激活mIoU(%)FLOPs(G)参数(M)修复74.5103.115.3Softmax74.1120.017.8乙状75.9120.017.8max(0,Tanh)76.1119.517.8方法Iter(K)ImageNetSDPmIoU(%)网络修复186✗✗74.5动态186✗✗76.1方法λ2/µmIoU(%)FLOPs(G)参数(M)动态558✗✓78.3网络修复-74.5103.115.3网络修复186✓✗75.8动态-A0.8/0.172.844.917.8动态186✓✗78.6动态-B0.5/0.173.858.717.8动态-C0.5/0.274.666.617.88561表6.与以前的城市景观作品的比较。mIoUtest和mIoUval分别表示测试集和val集上的性能。多尺度和翻转策略在测试集中使用,但在val集中丢弃我们报告输入大小为1024×2048的FLOP。方法骨干mIoU检验(%)mIoU值(%)FLOPs(G)BiSenet [40]ResNet-1877.774.898.3†DeepLabV3 [5]ResNet-101-ASPP-78.51778.7[19]第十九话ResNet-101-FPN-77.7500.0DeepLabV3+[6]Xception-71-ASPP-79.61551.1PSPNet [43]ResNet-101-PSP78.479.72017.6[22]第二十二话搜索-F20-ASPP79.979.7333.3[22]第二十二话搜索-F48-ASPP80.480.3695.0动态*第16层79.178.3111.7动态第16层79.778.6119.4动态第33层80.079.2242.3动态第33层-PSP80.779.7270.0†根据相应设置估算*从零开始表7.与PASCAL VOC 2012上以前的作品进行比较。mIoUtest和mIoUval分别表示测试集和val多尺度和翻转策略在测试集中使用,但在val集中丢弃我们报告输入大小为512×512的FLOP。方法骨干mIoU检验(%)mIoU值(%)FLOPs(G)DeepLabV3 [5]MobileNet-ASPP-75.314.3DeepLabV3 [5]MobileNetV2-ASPP-75.75.8[22]第二十二话搜索-F20-ASPP82.578.341.7†动态第16层82.878.614.9动态第33层84.079.030.8†根据相应设置估算在valset上设置。所提出的方法在不同的情况下取得了一致的改善。通过预定丢弃路径[46,22]和ImageNet[10]预训练,可以进一步提高动态网络(L=16与几个著名的工程作了比较。六、在类似的资源成本下,所提出的动态网络在val集合上实现了78.6%的mIoU,这比设计良好的BiSenet实现了3.8%的绝对增益 [40]。动态网络(L=33)采用简单的比例变换模块,不需要花大力气,实现了与现有技术相当的性能,但消耗的此外,结合上下文捕获模块(例如,PSP块),所提出的方法有进一步的改进,并实现了80.7%的mIoU上的Cityscapes测试集。4.6. PASCAL VOC我们进一步比较了类似的方法(在COCO [21]数据集上进行预训练),这些方法专注于PASCAL VOC2012 [11]数据集上的架构设计,具有可比的计算开销。特别是,所提出的方法在准确性和效率方面都超过了Auto-DeepLab [22],后者将花费3个GPU天进行架构搜索,如表1所示7 .第一次会议。较基于MobileNet的DeepLabV3 [5],动态网络仍然以类似的资源成本获得更好的性能。5. 结论在这项工作中,我们提出了动态路由语义分割。与以往算法的主要区别在于,我们根据每幅图像的尺度分布来生成数据相关的前向路径为此,提出了软条件门,以端到端的方式选择规模转换路线,如果给定资源预算,它将学习丢弃无用的操作以提高效率。已经进行了广泛的消融研究,以证明动态网络优于几个静态架构,这可以在设计的路由空间建模。在Cityscapes和PASCAL VOC 2012上的实验证明了该方法的有效性,其性能与最先进的方法相当,但消耗的计算资源要少得多。确认本 工 作 得 到 国 家 重 点 研 究 发 展 计 划 项 目2018YFD0400902和国家自然科学基金项目61573349的资助8562引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。TPAMI,2017。一、二[2] 韩才、朱立庚、宋涵。Proxylessnas:在目标任务和硬件上直接进行神经结构搜索。2019年,在ICLR。2[3] 陈良杰、麦克斯韦·柯林斯、朱玉坤、乔治·帕潘德里欧、巴雷特·佐夫、弗洛里安·施洛夫、哈特维格·亚当和乔恩·施伦斯。寻找用于密集图像预测的高效多尺度架构。NeurIPS,2018。一、二[4] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI,2017。2[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv:1706.05587,2017。二四五六八[6] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV,2018。一、二、八[7] 辰昕、邪灵犀、君无邪、齐天。 渐进式可区分体系结构搜索:缩小搜索和评估之间的深度差距。在ICCV,2019年。2[8] 弗朗索瓦·肖莱。Xception:使用深度可分离卷积的深度学习在CVPR,2017年。6[9] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。二、五、七[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。五、八[11] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。IJCV,2010年。二、五、八[12] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhivei Fang,and Hanqing Lu.用于场景分割的双注意网络。在CVPR,2019年。2[13] Zichao Guo , Xiangyu Zhang , Haoyuan Mu , WenHeng,Zechun Liu,Yichen Wei,and Jian Sun.采用均匀采样的单路径单次神经架构搜索。arXiv:1904.00420,2019年。2[14] Bharat hHariharan,PabloArbela' ez,LubomirBourdev,Subhransu Maji,and Jitendra Malik.从反向检测器的语义轮廓见ICCV,2011年。5[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在ICCV,2015年。5[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。五、六、七[17] Gao Huang , Danlu Chen , Tianhong Li , Felix Wu ,Laurens van der Maaten,and Kilian Q Weinberger.多尺度稠密8563用于资源高效图像分类的网络在ICLR,2018年。2[18] Zilong Huang,Xinggang Wang,Lichao Huang,ChangHuang,Yunchao Wei,and Wenyu Liu. Ccnet:Criss-cross attention for semantic segmentation.在ICCV,2019年。2[19] Alexander Kirillov,Ross Girshick,Kaiming He,andPiotr Doll a'r. 光学特性金字塔网络工作。 在CVPR,2019年。1、8[20] Ji Lin,Yongming Rao,Jiwen Lu,and Jie Zhou.运行时神经修剪。NeurIPS,2017。2[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。2014年,在ECCV。8[22] Chenxi Liu , Liang-Chieh Chen , Florian Schroff ,Hartwig Adam,Wei Hua,Alan L Yuille,and Li Fei-Fei.自动deeplab:用于语义图像分割的分层神经结构搜索。在CVPR,2019年。一二三四五六八[23] 柳寒笑,凯伦西蒙尼扬,杨一鸣。 飞镖:差异架构搜索。2019年,在ICLR。二、三、四[24] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR,2015。一二四五六[25] Vladimir Nekrasov,Hao Chen,Chunhua Shen,and IanReid.通过辅助细胞的紧凑语义分割模型的快速神经架构搜索在CVPR,2019年。一、二[26] Hyeonwoo Noh Seunghoon Hong和Bohyung Han。用于语义分割的学习反卷积网络在ICCV,2015年。2[27] Hieu Pham、Melody Y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功