没有合适的资源?快使用搜索试试~ 我知道了~
数据相关解码支持灵活特征聚合的语义分割解码器
312616 或 32R解码器对于语义分割至关重要:数据相关解码支持灵活的特征聚合田志1何桐1沈春华1严友良21澳大利亚阿德莱德大学2华为诺亚摘要最近的语义分割方法利用编码器-解码器架构来产生期望的逐像素分割预测。解码器的最后一层通常是双线性上采样过程,以恢复最终的逐像素预测。我们的经验表明,这种过于简单和数据无关的双线性上采样可能导致次优结果。在这项工作中,我们提出了一种数据相关的上采样(DUpsampling)来取代双线性,它利用了语义分割的标签空间中的冗余,并且能够从CNN的低分辨率输出中恢复像素预测。新的上采样层的主要优点在于,分辨率较低的要素地图,例如11、In-把大小,我们可以实现更好的分割精度,显着降低计算复杂度。这通过以下方式成为可能:1)新的上采样层的大大改进的重构能力;更重要的2)基于Dupsampling的解码器在识别CNN编码器的特征的几乎任意组合方面的灵活性。在PASCAL VOC上的实验表明,我们的解码器具有更低的计算复杂度,性能优于最先进的解码器。最后,在没有任何后处理的情况下,配备了我们提出的解码器的框架在两个数据集上实现了新的最先进的性能:PASCAL VOC的mIOU为88.1%,占先前最佳模型的30%; PASCAL Context上的mIOU为52.5%。1. 介绍全卷积网络(FCN)[21]在密集像素预测应用中取得了巨大的成功,例如语义分割,其中算法被要求预测输入图像的每个像素的变量,并且是计算机视觉中的基本问题。的前两个作者同样对这项工作做出了贡献。C.沈是相应的作者:春华. shen @ adelaide。edu. au图1:使用的编码器-解码器架构的示例DeepLabv3+。 它的解码器融合了下采样率的低级别特征= 4,并在合并高级特征之前对其进行上采样。最后,应用双线性上采样来恢复全分辨率预测。“rate” denotes the atrous rate in atrous模糊神经网络的巨大成就源于其强大的特征提取能力。重要的是,共享卷积计算机制使训练和推理在计算上非常有效。在原始的FCN中,几个阶段的跨越卷积和/或空间池化通常将最终图像预测减少32倍,从而丢失精细的图像结构信息并导致不准确的预测,特别是在对象边界处。DeepLab [3]应用atrous(a.k.a dilation)卷积,实现大的接收场,同时保持更高分辨率的特征图。可替代地,编码器-解码器架构通常用于解决该问题。编码器-解码器架构将骨干CNN视为编码器,负责将原始输入图像编码为较低分辨率的特征图(例如,1,其中r=8、16或32)。之后,解码器用于从较低分辨率特征图恢复逐像素预测。在以前的作品[5,17]中,解码器由几个卷积层和双线性上采样组成。述的轻质输入图像513x513根,步幅2257x257预测513x513区块1,步幅2 ConcatConv3x3,129x129 129x129 129x129第2块,步幅265x65Conv3x3,129x129第3块,步幅233x33上采样了4倍Conv3x3,Bilinear4129x129次第四块第一步速率2,33x33Conv1x1,33x33卷积解码器上采样解码器编码器Argmax312733x33xC1Conv1x1下采样骨干CNN融合特征解码器编码器33x33xC2Dupsample513x513513x513x3输入图像上采样图2:我们提出的解码器的框架。 与之前的框架的主要区别如图所示。1是1)所有融合特征在合并之前被下采样到最低特征分辨率。2)用我们提出的DUpsampling代替不能使用的双线性来恢复全分辨率预测。卷积解码器产生高分辨率特征图,并且最终将双线性上采样应用于所得到的特征图以获得期望的逐像素预测。解码器通常会融合低级特征,以捕获CNN中卷积和池化操作丢失的细粒度信息。一个标准的DeepLabv3+编码器-解码器架构如图所示。1.一、过于简单的双线性上采样的缺点是其在准确地恢复逐像素预测方面的有限能力。双线性上采样不考虑每个像素的预测之间的相关性,因为它是数据独立的。结果,要求卷积解码器产生相对较高的分辨率特征图以便获得良好的最终预测(例如,1为了产生高分辨率预测,解码器必须在低级别融合高分辨率特征。该约束缩小了特征聚合的设计空间,并且因此可能导致在解码器中聚合的特征的次优组合。在实验中,我们表明,一个更好的特征聚合策略,可以找到,如果特征聚合可以设计没有约束的分辨率的特征地图。为了解决上述由双线性引起的问题,在这里我们提出 了 一 种 新 的 数 据 相 关 上 采 样 方 法 , 称 为DUpsamling,以从CNN的最终输出中恢复像素我们提出的DUpsampling利用了冗余14或输入大小的8)。这个要求导致语义分割的两个问题。1) 编码的整体步幅必须通过使用多个atrous卷积来非常积极地减少代价是更大的计算复杂度和内存占用,阻碍了大数据的训练和实时应用的部署。例如,为了实现最先进的性能,最近的DeepLabv3+[5]将其编码器的整体步幅减少了四倍(从32到8)。因此,DeepLabv3+的推断非常缓慢。2) 通常需要解码器以非常低的电平融合特征。例如,DeepLabv3+在block1中融合了下采样率=41的功能,如图所示。1. 这是因为,最终预测的准确性是实际的。由于双线性的不可行性,因此由融合的低水平特征的分辨率所支配因此,为了1下采样率表示特征图的分辨率与输入图像的分辨率的比率。在分割标签空间中,并证明能够从相对粗糙的CNN输出中准确地恢复逐像素预测,从而减轻了对卷积解码器的精确响应的需求因此,编码器不需要过度减少其整体步幅,从而大大减少了整个分割框架的计算时间和内存占用。同时,由于DUp采样的有效性,它允许解码器在合并它们之前将融合特征下采样到特征图的最低分辨率。这种下采样不仅减少了解码器的计算量,而且更重要的是,它提高了融合特征的分辨率和最终预测的分辨率。这种解耦允许解码器利用任意的特征聚合,因此可以利用更好的特征聚合,以便尽可能地提高分割性能。最后,Dupsampling可以无缝地 并入用标准的1×1卷积进入网络,Argmax3128H=32不需要特别编码。我们的整体框架如图所示二、我们总结了我们的主要贡献如下。• 我们提出了一个简单而有效的数据相关的上采样(DUpsampling)方法来恢复像素的分割预测从粗糙的输出的卷积解码器,取代了以前的方法中广泛使用的不能双线性。• 利用我们提出的DUpsampling,我们可以避免过度减少的整体步幅编码器,显著减少了计算时间和内存占用的语义分割方法的3倍左右。• Dupsampling还允许解码器在合并融合特征之前将融合特征下采样到特征图的最低分辨率。下采样不不仅显著地减少了解码器的计算量,而且还扩大了特征聚集的设计空间,允许在解码器中利用更好的特征聚集。• 结合上述贡献,我们提出了一种新的解码器方案,该方案与最先进的解码器相比毫不逊色,同时使用更少的COM。填充复杂度利用所提出的解码器,图1中所示的框架。 2实现 了新 的最先 进的 性能: 在 PASCALVOC [9]上的mIOU为88.1%2,仅为DeepLabv3+ [5]之前最佳框架的30%计算。我们还在PASCALContext 数 据 集 上 设 置 了 52.5% 的 新 mIOU 记 录[23]。2. 相关工作已经致力于利用FCN改进逐像素它们大致可分为两类:[32]和编码器-解码器ar-编码器-解码器架构。编码器-解码器结构被提出来克 服 无 卷 积 的 缺 点 , 并 被 广 泛 用 于 语 义 分 割 。DeconvNet [24]使用堆叠的反卷积层来逐渐恢复全分辨率预测。该方法具有产生高分辨率预测的潜力,但由于解码器引入的许多参数难以训练。SegNet [2]与DeconvNet有着类似的想法,但在池化层中使用索引来指导恢复过程,从而获得更好的性能。Re-fineNet [17]进一步融合低级功能以提高性能。最近,DeepLabv 3+ [5]利用了编码器-解码器架构和atrous卷积的优势,在一些数据集上实现了迄今为止最好的性能虽然人们一直在努力设计一个更好的解码器,但到目前为止,几乎没有一个能够绕过对融合特征的分辨率的限制,并开发更好的特征聚合。3. 我们的方法在本节中,我们首先用我们提出的DUpsampling重新定义语义分割,然后提出自适应温度softmax函数,使DUsampling的训练更加容易。最后,我们展示了如何通过融合下采样的低级特征来大大改进框架3.1. 超越双线性:数据相关的上采样在本节中,我们首先考虑最简单的解码器,其仅由上采样组成。设F∈RH<$ ×W<$×C<$表示编码器CNN的最终输出,{0,1,2,… C}H×W是地面实况标签地图,其中C和C′分别表示分段的类别数和最终输出的通道数。Y通常用独热编码来编码,即,Y∈ {0,1}H×W×C. 注意,F通常是因子16或32的空间大小的地面实况Y。换句chitectures [17,5,21,2,24].心房回旋。 一个简单的方法是沃尔斯河W1W16 或1. 由于语义分割通过丢弃一些步幅卷积或池化层来减少骨干CNN的整体步幅。然而,简单地减少这些步幅将大大减少卷积网络的感受野,这被证明对语义分割至关重要[3,25,20]。Atrous convo-解决方案[4,3,5,32]可以用于保持感受野不变,同时不对特征图分辨率进行太多的下采样。无环卷积的主要缺点是计算复杂度更高,内存需求更大,因为这些无环卷积核的大小以及所得到的特征图变得更大[12,6]。2PASCAL VOC测试装置的结果可在host.robots.ox.ac.uk:8080/anonymous/UYT221.html上找到需要逐像素预测,在计算训练损失之前,F需要被上采样到Y通常在语义分割[4,5,21,33,13]中,训练损失函数被公式化为:L(F,Y)= Loss(softmax(bilinear(F)),Y)。(一)这里Loss通常是交叉熵损失,并且双线性用于将F上采样到Y的空间大小。我们认为,双线性去采样可能不是最佳的选择。正如我们在实验中所展示的那样(Sec.4.1.1),双线性过于简单,并且在重建方面具有较低的上限为了补偿双线性引起的损失,所采用的深度网络因此被要求输出更高的分辨率=3129重新排列RF1xN1xC2x2xN/4CxN高x宽x高上采样2Hx2WxN/4W图3:建议的Dupsampling。在图中,DUpposampling用于将CNN输出F上采样两倍。R表示所得到的映射。W,用第二节中描述的方法3.1是DUpsampling的逆投影矩阵实际上,上采样比通常为16或32。特征图,其被输入到双线性运算符。如上所述,解决方案是应用atrous卷积,代价是高计算复杂度。例如,将总步幅从16减少到8会引起超过3倍的计算。重要的观察是图像的语义分割标签Y不是i.i.d. 并且其中包含结构信息,使得Y可以被相当大地压缩而几乎没有损失。因此,与之前的方法不同,这些方法将F上采样到Y的空间大小,我们尝试将Y压缩为Y∈RH<$ ×W<$×C<$,然后将其合并。将训练损失置于F和Y之间。注意,F和Y大小相同。为了将Y压缩为Y_n,我们寻求在某种度量下的变换,以最小化Y和Y_n之间的重构误差。具体地,设r表示H的比率,到H,通常是16或32。Ne xt,Y被划分为大小为r×r的子窗口的H×W网格(如果H或W不是这个目标可以用标准的随机梯度下降(SGD)迭代优化。通过正交约束,我们可以简单地使用主成分分析(PCA)[29]来实现目标的封闭形式解决方案使用Y**作为目标,我们可以通过观察压缩标签Y**是实值的来预训练具有回归损失的网络L(F,Y)=||F-Y轴||二、(四)因 此 , 任 何 回 归 损 失 , 如 等 式 2 中 的 典 型 示 例(4)、可以在这里就业或者,更直接的方法是计算Y空间中的损失。因此,我们不是将Y压缩成Y,而是用学习的重构矩阵W对F进行上采样,然后计算解压缩的F和Y之间的像素分类损失:R r可被R整除,应用填充)。对于每个子窗口S∈ {0,1}r×r×C,我们将S整形为向量v ∈ {0,1}N,其中N = r × r × C。最后,我们把向量v压缩成一个低维向量x ∈ RC,然后把所有x垂直和水平叠加形成Y。尽管可以使用多种方式来实现压缩,我们发现,简单地使用线性投影,即,在这种情况下,将v乘以矩阵P∈RC<$×N是很好的形式上,我们有,x=Pv;其中P∈RC<$×N用于将v压缩到x中。W∈RN×C是逆投影矩阵(也称为逆投影矩阵)。 反射矩阵)并用于将x重新构造回v。v是重建的v。这里我们省略了偏移项。在实践中,在压缩之前,通过减去其在训练集上的平均值来将v居中矩阵P和W可以通过在训练集上最小化v和v之间的重构误差来找到。从形式上讲,ΣL(F,Y)= Loss(softmax(DUpsample(F)),Y)。(五)通过线性重建,DUppsample(F)将Wf的线性上采样应用于张量中的每个特征f∈RCF. 与Eq相比(1)我们已经更换了bilin-耳朵上采样与数据相关的上采样,从地面实况标签学习。该上采样过程本质上与沿空间维度应用1×1卷积相同,卷积核存储在W.解压缩如图所示。3.第三章。注意,除了上面提出的线性上采样之外,我们还使用用于上采样的非线性自动编码器进行了实验。自动编码器的训练也是为了最小化重建损失,比线性情况更普遍。经验上,我们观察到,最终的语义预测精度几乎与使用简单得多的线性重建相同。因此,我们专注于使用线性重建的续集。与深度空间转换和亚像素的讨论。的P, W= arg minP, WvΣ||2||22(三)DUpsample的最简单的线性形式可以被视为[28]中的深度到空间或[29]中的子像素的改进版本。[26]使用预先计算的上采样滤波器。深度到空间= arg minP, Wv||.||.和子像素通常用于对输入进行上采样,31304适度的上采样比(例如,≤4),以避免引入过多的可训练参数,导致优化困难。相比之下,由于我们的方法是预先计算的,DUpsaming的上采样率可以非常大(例如,16、如果需要的话。3.2. 使用自适应温度Softmax到目前为止,我们已经表明,DUpsampling可以用来取代语义分割中的不起作用的双线性上采样。下一步是将Dupsampling合并到编码器-解码器框架中,从而产生端到端的终端可训练系统。虽然Dupsampling可以通过1×1卷积运算来实现,但直接将其纳入框架会遇到优化困难。可能是由于W是用one-hot编码的Y计算的,我们发现vanilla softmax和DUpsampling的组合难以产生足够尖锐因此,交叉熵损失在训练过程中被卡住(如实验4.1.4所示),这使得训练过程收敛缓慢。为了解决这个问题,我们转而使用具有温度的soft-max函数[14],它将温度T添加到vanilla softmax函数中以锐化/软化softmax的激活。exp(zi/T)其中f表示CNN,上采样通常是双线性的。concat是沿着通道的串联操作符。如上所述,这种布置具有两个问题。1)f在上采样之后应用。由于f是CNN,其计算量取决于输入的空间大小,因此这种布置将使解码器在计算上效率低下。此外,计算开销防止解码器在非常低的水平上利用特征2)融合的低级特征Fi的分辨率等于F的分辨率,由于不能使用双线性来产生最终逐像素预测,因此F的分辨率通常约为最终预测的1分辨率为了获得高分辨率的预测,解码器只能选择具有高分辨率低级别特征的特征聚合相比之下,在我们提出的框架中,恢复全分辨率预测的责任在很大程度上转移到了DUpsampling。因此,我们可以安全地将任何级别的使用的低级特征下采样到最后一个特征图的分辨率Flast(特征图的最低分辨率),然后融合这些特征以产生最终的预测。如图所示。2.在形式上,Eq。(7)改为,F=f(concat(下采样(Fi),Flast)),(8)其中,在我们的情况下,下采样是双线性的。这种重新排列不仅使特征始终以最低分辨率有效地计算,而且还使低级特征Fi的分辨率和最终段的分辨率加倍。softmax(zi)=J.(六)exp(zj/T)心理预测,允许任何级别的功能,融合了 在实验中,我们展示了灵活的特征融合我们发现T可以使用标准的反向传播算法自动学习,无需调整。我们在实验中表明,这种自适应温度softmax使训练收敛得更快,而无需引入额外的超参数。3.3. 卷积特征极深的CNN [12,6,15]导致了计算机视觉的成功然而,深度也会导致语义分割所必需的细粒度信息的丢失许多作品[17,5]已经表明,结合低级卷积特征可以显着提高分割性能令F是用于通过双线性或上述DUp采样产生最终逐像素预测的最终CNN特征图。Fi和Flast分别表示骨干的第i为了简单起见,我们专注于融合一个级别的低级别特征,但将其扩展到多级别融合也很简单,这将进一步提高性能。图中所示的先前解码器中的特征聚合1可以被公式化为,F=f(concat(Fi,upsample(Flast),(7)使我们能够利用更好的特征融合来尽可能地提高只有当与上述DUp采样配合时,对低级特征进行下采样的方案才能起作用。否则,性能受到解码器的不能够上采样方法的上界的限制。这就是为什么需要先前的方法来将低分辨率高级特征图上采样回到融合的低级特征图的空间大小的原因。4. 实验所提出的模型在PASCAL VOC 2012语义分割[9],PASCAL上下文[23][7]城市景观[7]基准。我们根据跨当前类平均的像素mIOU)。PASCAL VOC是广泛用于语义分割的数据集。它包括21个类,包括背景. PASCAL VOC的分割分别为1,464、1,449和1,456,用于训练、验证和测试我们工作的烧蚀研究是在其数值集上进行的。此外,我们报告我们的性能超过测试集比较,其他最先进的方法。313116 或 32PASCAL Context比PASCAL VOC大得多,包括用于训练的4,998个图像和用于验证的5,105个根据以前的工作[17,23],我们选择最常见的59个类加上一个背景类(即,共60个班级)。没有可用的测试服务器,因此我们遵循以前的工作[17,33,3,21,36]来报告我们在valset上的结果。Cityscapes是语义城市场景解析的大规模基准。它包含2975张用于训练的图像,500张用于验证的图像和1525张用于测试的图像此外,它还提供了大约20000张弱注释的图像。实作详细数据。 所有消融在PASCAL VOC上的实验中,我们选择ResNet-50 [12]和Xception-65 [6]作为我们的骨干网络,两者都如[5]中所述进行了修改。在[20,4,5]之后,我们使用“poly”作为所有实验的学习率策略。初始学习率设定为0.007,总迭代次数为30k,用于PASCAL VOC上的消融实验对于所有基于ResNet的实验,权重衰减设置为0.0001。批量大小设置为48,但批量归一化[16]统计量是用一批12张图像计算的。对于所有基于Xception的实验,权重衰减为0.00004。我们使用32的批量大小,但在16个图像的批量中计算批量归一化统计。我们遵循的做法[5,4,34] 使用ImageNet [8]上预先训练的权重来初始化骨干网络。新添加的层的所有权重都以方差0.01和均值0的高斯分布初始化。初始化自适应温度softmax中的T方法输出步长mIOU(%)mIOU*(%)双线性3270.7794.80上采样3272.0999.90双线性1672.1598.40上采样1673.1599.95表1:PASCAL VOC值集上的DUp采样与双耳上采样“输出步幅”指示输入图像空间分辨率与最终输出分辨率的比率。mIOU* 表示上限。使用的低级功能mIOU(%)FLOPSN/A73.150.80Bconv1 372.701.13Bb1u2c374.031.15Bb3u6c373.431.23Bb1u2c3 + b3u6c373.821.58Bconv1 3 + b3u6c374.201.56B表2:当使用不同-特征的融合。bx uy cz表示ResNet中名为blockx/unity/convz的低级特征。“FLOPS” denotes the amount of com-putation of the decoder including feature aggregation, convolutional de-coder and the final最后,我们设计了一个轻量级的CNN,包括五个卷积层,核大小为3,步长为2,它被馈送以地面真值标签而 不 是 原 始 图 像 。 接 下 来 , 在 此 基 础 上 添 加Dupsampling或bilinear以恢复逐像素预测。这类似于编码器-解码器架构中的解码器通过训练两个网络,使用Dupsampling或到1. 对于基于ResNet-50的实验,将C值设置为64,分别作为双线性译码器,恢复能力强,128个用于基于Xception-65的实验。最后,根据之前的工作[4,3,5],我们通过将图像从0.5随机缩放到2.0并左右翻转来增强训练数据。4.1. 消融研究我们的工作重点是解码器部分的分割-灰架构。因此,对于所有消融实验,我们使用相同的编码器,如图所示。1.编码器产生最终的特征图,11原始图像的大小。解码器的目标是将低分辨率的特征图解码为具有与原始图像相同分辨率的预测。在本节中,我们将研究不同的解码器方案,并展示我们提出的解码器我们使用官方训练集而不是SBD [11],因为它提供了更一致的注释。4.1.1D上采样与双线性首先,我们设计了实验来证明双线性的上界远低于Dupsampling的上界,这导致双线性的性能有限具体逐像素的预测可以通过它们在Val集合上的性能来定量地测量,Val集合可以被看作是两种方法的上限。我们使用实现细节中描述的训练协议来训练两个网络,除了总迭代次数和初始学习率分别设置为100k和0.07。“output表示输入图像空间分辨率与fi的比率最终CNN特征映射分辨率。如表1所示,当输出步幅为32和16时,DUpsampling的上限性能都远高于双线性。鉴于DUp采样的上界性能优越,我们进一步用原始输入图像进行实验。在实验中,我们使用ResNet-50作为骨干网络。毫不奇怪,仅通过用DUpsampling替换双线性,当输出步幅分别为32和16时,PASCAL VOCval集上的mIOU分别提高了1.3点和1点,如表所示1.这种改进是显著的,因为mIOU是严格的。有趣的是,输出步幅为32的D上采样实现了与输出步幅为16的 双 线 性 情 况 类 似 的 性 能 。 这 表 明 , 所 提 出 的DUpsampling可以消除对来自CNN的昂贵的计算高分辨率特征图的需要3132解码器低级特征/比率mIOU(%)FLOPSResNet-50Xception-65香草efb2u1c2 /478.705.53B提出efb2u1c2 /479.091.93B香草mfb1u16c3 /1678.740.41B提出mfb1u16c3 /1679.671.98B表3:使用不同特征融合策略时PASCAL VOC值集上的mIOU。bxuy cz表示在ResNet或Xception中名为blockx/unity/convz的低级特征。“ef”和“mf”分别表示Xception中的“入口流”和“中间流”。“-”表示内存不足。“比率”表示特征图的分辨率与输入图像的分辨率的比率(即,下采样比)。“FLOPS” denotes the amount of computationof the4.1.2灵活聚合卷积特征由于我们提出的解码器的灵活性,我们可以employ任何组合的功能,以提高分割性能,无论融合功能的分辨率。对于ResNet-50,我们试验了许多不同的功能组合,如表2所示。 最佳组合为conv 13 + b3 u6 u3,mIOU比valset高74.20%。此外,如表2所示,当融合不同级别的特征时,计算量变化很小,这允许我们选择最佳特征融合而不考虑计算代价由融合特征的分辨率引起。为了理解融合是如何工作的,我们在图中可视化了具有和不具有低级特征的分割结果。4.直观地说,融合低级别特征的一个产生更一致的分割,这表明下采样的低级别特征仍然能够实质上细化分割预测。4.1.3与Vanilla Bilinear Decoder的比较我们进一步比较我们提出的解码器方案与香草双线性解码器如图所示1、熔断器表4:Cityscapes值集上的mIOU。我们提出的解码器,计算复杂度低得多,实现了与vanilla解码器如表3所示,它在以ResNet-50作为主干的val集上实现了mIOU 73.26%通过在图中用我们提出的解码器替换香草解码器。2、性能提高到74.03%。由于使用了相同的低级别特征,因此改进应归因于能够进行的上采样,而不是用于恢复全分辨率预测的双线性。此外,我 们 还 探 索 了 一 种 更 好 的 特 征 融 合 方 法 conv13 +b3u6c3,并将整体性能提高到74.20%。当vanilla解码器使用特征的融合时,由于conv1 3的高分辨率,它招致更重的计算复杂度并且耗尽我们的GPU存储器,这阻止了vanilla解码器利用低级特征。我们还实验我们提出的解码器与Xception-65作为骨干。类似地,利用相同的低级特征efb2u1c3(下采样率=4),我们提出的解码器将性能从78.70%提高到79.09% , 如 表 3 所 示 当 使 用 更 好 的 低 级 别 特 征mfb1u16c3(下采样率=16)时,vanilla解码器仅将性能提高了0.04%,这是因为其性能受到用于恢复全分辨率预测的不能双线性上采样的相比之下,我们提出的解码器仍然可以受益于更好的特征融合,由于使用了更强大的DUpsampling。如表3所示,通过更好的特征融合,我们提出的解码器的性能此外,由于我们在融合之前对低级特征进行了下采样,因此我们提出的解码器需要比最佳性能的普通解码器少得多的FLOPS,如表3所示。最后,我们比较了我们提出的解码器与香草双线性解码器的Cityscapes值集。关注-低级特征B1U2C3(下采样率=4)。作为在[5]中,Xception-71被用作我们的骨干,迭代次数增加到90k,初始学习率为0.01。如表4所示,在相同的训练和测试设置下,我们提出的解码器在使用更不用说计算了。图像w/o低级别功能w/低级功能地面实况4.1.4自适应温度softmax如前所述,自适应温度softmax简化了所提出的DUpsampling方法的训练图4:具有低级特征和不具有低级特征的预测结果。ResNet-50用作主干。当用vanilla softmax训练框架时,为1时,其相对于val集的提高率为69.81%,解码器低层特征/比率mIOU(%)FLOPS香草efb2u1c2 /479.3643.65B提出mfb1u16c3 /1679.0625.14B香草b1u2c3 /473.265.53B提出b1u2c3 /474.031.15B香草conv1 3 / 2 + b3u6c3 /16-22.34B提出conv1 3 / 2 + b3u6c3 /1674.201.56B31332.52.01.51.00.50.0香子兰softmax自适应温度softmax0 5000 10000 15000 20000 25000 30000迭代心理细节。每一轮都用上一轮模型初始化,并且基础学 习 率 相 应 地 降 低 ( 即 , COCO 为 0.007 , SBD 为0.001,Trainval为0.0001)。我们在COCO上训练时使用500k迭代,最后两轮使用30k迭代此外,在以前的工作[4,5]的基础上,我们在推断测试集时使用了多尺度测试和左右翻转。如表5所示,我们的框架在PASCAL VOC上创造了新的记录,并将具有相同主干的先前方法DeepLabv3+提高了0.3%,这是非常重要的,因为基准测试已经非常竞争。直观的。 同时,由于我们提出的解码器可以消除-图5:vanilla softmax和adaptive-temperature的训练损失softmax.方法mIOU(%)PSPNet [35]85.4DeepLabv3 [4]85.7EncNet [33]85.9DFN [31]86.2[27]第二十七话86.3[10]第十届全国政协委员86.6[22]第二十二话86.8DeepLabv3+ [5](Xception-65)87.8我们的建议(Xception-65)88.1表5:PASCAL VOC测试集的最新方法。方法mIOU(%)[21]第二十一话37.8CRF-RNN [36]39.3HO CRF [1]41.3[第18话]43.3VeryDeep [30]44.5DeepLabv2 [3]45.7[第17话]47.3EncNet [33]51.7我们的建议(Xception-65)51.4我们的建议(Xception-71)52.5表6:PASCAL上下文值集的最新方法。大大低于自适应温度softmax的73.15%。我们在图中进一步绘制了vanilla softmax和自适应温度softmax的训练损失。5,这显示了这种自适应温度softmax的优势。4.2. 与现有技术方法的最后,我们比较了我们提出的解码器的框架与国家的最先进的方法。为了与这些最先进的方法竞争,我们选择Xception-65作为骨干网络,并在我们的解码器的消融研究中选择最好的特征聚合。按照以前的方法,SBD [11]和COCO [19]也用于训练模型具体而言,该模型在COCO、SBD和PASCALVOC训练集上连续训练,训练协议在imple中描述。由于需要高分辨率的特征图,我们在DeepLabv3+中使用输出步幅为16而不是8,从而在测试集上进行推断。因此,我们的整个框架只需要30%的DeepLabv3+计算(897.94 B与3055.35B),以实现最先进的性能。我们提出的框架在PASCAL上下文val集上的性能如表6所示。以Xception-71为骨干,我们的框架在这个数据集上设置了新的最先进的技术,而无需在COCO上进行预训练。5. 结论我们提出了一个灵活和轻量级的解码器方案的语义图 像 分 割 。 这 种 新 颖 的 解 码 器 采 用 我 们 提 出 的DUpsampling来产生逐像素预测,这消除了对来自底层CNN的计算效率低下的高分辨率特征图的需要,并使融合的低级特征的分辨率和最终预测的分辨率加倍。这种去耦合扩展了解码器的特征聚合的设计空间,允许利用几乎任意的特征聚合来尽可能地提高分割性能。同时,我们提出的解码器避免了将低分辨率的高级特征图上采样回高分辨率的低级特征图的空间大小,显著减少了解码器的计算量。实验表明,我们提出的解码器具有优势的有效性和效率的香草解码器广泛使用在以前的语义分割方法。最后,该框架与建议的解码器达到国家的最先进的性能,同时要求更少的计算比以前的国家的最先进的方法。致谢感谢华为技术有限公司捐赠GPU云计算资源。引用[1] Anurag Arnab 、 Sadeep Jayasumana 、 Shuai Zheng 和Philip HS Torr。深度神经网络中的高阶条件随机场。在proc EUR. Conf. Comp. 目视第524-540页施普林格,2016年。损失3134[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegNet:用于图像分割的深度卷积编码器-解码器架构。IEEE传输模式分析马赫内特尔,(12):2481[3] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE传输模式分析马赫内特尔,40(4):834[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017.[5] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Flo- rian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。Proc. Eur.配置文件可见,2018年。[6] 弗朗索瓦·肖莱。Xception:使用深度可分离卷积的深度学习Proc. IEEE Conf.对比可见光帕特识别,第1610-02357页[7] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议(CVPR),2016年。[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。 在proc IEEE会议Comp. 目视帕特识别,第248-255页。Ieee,2009年。[9] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 Int. J. Comp. 目 视 , 88(2):303-338,2010.[10] 傅俊,刘静,王宇航,卢汉青。用于语义分割的堆叠去卷积网络。arXiv预印本arXiv:1708.04943,2017。[11] Bhara thHariharan,PabloArbela' ez,LubomirBourdev,Subhransu Maji,and Jitendra Malik.从反向检测器的语义轮廓2011年。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在proc IEEE Conf.Comp.目视帕特识别,第770-778页[13] Tong He , Chunhua Shen , Thi Tian , Dong Gong ,Changming Sun,and Youliang Yan.知识适应有效的语义分割。arXiv预印本arXiv:1903.04688,2019。[14] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。[15] 高煌,刘壮,劳伦斯·范德马滕,和基尔-伊恩·温伯格。密集连接的卷积网络。正在进行IEEE会议对比可见光帕特识别[16] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。[17] Guosheng Lin,Anton Milan,Chunhua Shen,and Ian DReid. RefineNet:用于高分辨率语义分割的多路径细化网络。正在进行IEEE会议对比可见光帕特识别,第1卷,第5页,2017年。[18] Guosheng Lin,Chu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功