ExFuse：增强语义分割的特征融合

172 浏览量更新于2023-10-13 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ExFuse：增强语义分割的特征融合张振利1[0000 - 0002 - 0120 - 1918]、张翔宇2[0000 - 0003 - 2138 - 4608]、彭超2[0000 -0003 - 4069 - 4775]、薛向阳1[0000 - 0002 - 4897 - 9209]、孙健2[0000 - 0002 - 6178 - 4166]1中国上海复旦大学2Megvii Inc.，中国北京{zhenlizhang14，xyxue}@ fudan.edu.cn{张翔宇，彭超，孙健}@ megvii.com抽象。现代语义分割框架通常将来自预训练骨干卷积模型的低级和高级特征相结合，以提高性能。在本文中，我们首先指出，一个简单的低层次和高层次的功能融合可能是不太有效的，因为语义水平和空间分辨率的差距。我们发现，在低层特征中引入语义信息，在高层特征中引入高分辨率细节信息，对于后期的融合更为有效基于这一观察，我们提出了一个新的框架，名为ExFuse，以弥合低级别和高级别的功能之间的差距，从而显着提高分割质量的4.0%。此外，我们在具有挑战性的PASCAL VOC 2012分割基准上评估了我们的方法，并实现了87.9%的平均IoU，这超过了以前的最先进的结果。关键词：语义分割·卷积神经网络1介绍大多数最先进的语义分割框架[5，12，3，38，6，2，28，26，28，2935，40，22，4]遵循全卷积网络（FCN）的设计[25]。FCN具有典型的编解码器结构，用于生成分割结果。通常，编码器是预训练的卷积模型以提取图像特征，并且解码器包含多个上采样组件以恢复分辨率。虽然编码器的最顶部特征图可能是高度语义的，但由于分辨率不足，其在分割图中重建精确细节的能力受到限制，这在现代骨干模型中非常常见，如[15，33，20，16，37，31]。为了解决这些问题，采用了“U-Ne t”架构[ 28]，并在管理工作中采用了“U-Net”U-Net的核心思想是逐渐融合来自顶层的高级别低分辨率特征和来自底层的低级别但高分辨率的特征，这有望有助于解码器生成高分辨率的语义结果。2Zhang等人了图1.一、低级别和高级别故障的故障。 a）“纯”低级别高语义和“纯”高级别低语义特征具有很大的差异，可以通过计算显著的语义和解析差距来实现。b）将语义信息引入低层特征或将空间信息引入高层特征有利于特征融合。“dn”和“up”块表示一个b s t t r a c t up / d o w n - s a m p l i n g f a t u e m e m b d i n g。虽然U-Net取得了巨大的成功，但其工作机制仍然是未知的，值得进一步研究。低级特征和高级特征本质上是互补的，其中低级特征在空间细节方面丰富，但在视觉和视觉方面缺乏相似性。例如，“纯”低级特征仅对诸如点、线或边缘的低级概念进行编码。实际上，高级别特征与低级别特征的融合帮助不大，因为低级别特征太嘈杂而不能提供足够的高分辨率语义指导。相比之下，如果低级特征包括更多语义信息，例如，对相对更清晰的语义边界进行编码，则融合变得容易一一可以通过将高级别的映射对准到边界来获得精细的分割结果。类似地，具有很少空间信息的“纯”高级别特征不能充分利用低级别特征;然而，在嵌入附加的高分辨率特征的情况下，高级特征可能有机会通过对准最近的低级边界来细化自身。图1示出了上述概念。从经验上看，低层和高层特征之间的语义和分辨率重叠对特征融合的有效性起着重要作用。换句话说，可以通过在低层特征中引入更多的语义概念或通过在高层特征中嵌入更多的空间信息来增强特征融合。出于上述观察的动机，我们建议通过弥合低级和高级特征图之间的语义和分辨率差距来促进特征融合。我们提出了一个名为ExFuse的框架，它解决了这一差距ExFuse：增强语义分割的特征融合3从以下两个方面进行了阐述：1）为了在低层特征中引入更多的语义信息，本文提出了三种解决方案：层重排、语义监督和语义嵌入分支; 2）为了在高层特征中嵌入更多的空间信息，本文提出了两种新的方法：显式信道分辨率嵌入和密集相邻预测。无论采用哪种方法，都取得了显著的改善，通过合并，总增幅为4%。此外，我们在具有挑战性的PASCAL VOC2012 [10]语义分割任务上评估了我们的方法。在测试数据集中，我们实现了87.9%的平均IoU得分，超过了以前最先进的方法。我们的贡献可归纳如下：– 我们提出了一个新的视角来提高语义分割性能，即通过更有效的特征融合来弥合低级和高级特征之间的语义和分辨率差距– 我们提出了一个新的框架ExFuse，它引入了更多的语义信息到低级别的功能和更多的空间高分辨率的信息到高级别的功能。从增强的特征融合获得了显着的改善– 我们设备齐全的模型在PASCAL VOC 2012细分基准测试集上获得了最新的结果2相关工作语义分割中的特征融合特征融合经常用于不同目的和概念的语义分割。许多方法将低级别但高分辨率的特征和高级别低分辨率特征融合在一起[12，2，28，26，25，22]。此外，在DeepLab [5，6，4]中提出了ASPP模块，以融合多尺度特征来处理不同大小的对象。PSPNet [40]中的金字塔池模块通过不同的实现达到相同的目的。BoxSup [8]根据经验融合边界框的特征图和分割图，以进一步增强分割。深度监督学习。据我们所知，深度监督训练最初是在[21]中提出的，其目的是简化训练过程。非常深的神经网络，因为深度是训练现代神经网络的关键限制，直到提出了批归一化[18]和残差网络[15]。GoogleNet [33]中使用了额外的损失用于相同的目的。最近，PSPNet [40]也采用这种方法来简化训练更深层网络时的优化。上采样。主要有三种方法对特征图进行上采样。第一种是双线性插值，在文献[5，6，40，4]中得到了广泛的应用。第二种方法是反卷积，它最初在FCN [25]中提出，并在后来的工作中使用，如[3，2，28，26，22]。第三种被称为例如，[35]使用它来代替传统的反卷积运算。4Zhang等人图二.我们方法的总体架构。具有实线框的组件属于骨干GCN框架[26]，而在本工作中提出了具有虚线的其他组件与[26]类似，实际上使用了边界细化块，但在图中省略了块中的数字（H×W×C）指定每个组件的输出维度SSECRESEBDAP3方法在这些工作中，我们主要关注“U-Net”分段框架中的功能实现[12，2，28，26，25，22]。通常，U-Net具有如图1所示的编码器-解码器结构通常，编码器部分基于在大规模分类数据集（例如，分类器数据集）上预训练的卷积模型ImageNet [9]），它从底层生成低级别但高分辨率的特征，从顶层生成高级别低分辨率的特征。然后解码器部分混合特征以预测分割结果。特征融合的常见方式[27，12，14，2，28，26，22]是用残差形式表示y1=Upsample（y1+1）+F（x1）（1）其中y1是第1级的融合特征;x1代表由编码器生成的第1个特征具有较大l的特征具有较高的语义级别但具有较低的空间分辨率，反之亦然（参见图2）。在第1节中，我们认为，如果存在以下情况，特征融合可能会变得不那么有效是低级和高级特征之间的大的语义或分辨率差距。为了建立和发展该空间，我们选择了一个标准的在GCN中，有4个不同的语义级别ExFuse：增强语义分割的特征融合5在512× 512输入下，其空间分辨率分别为{128， 64， 32， 16}为了检验特征融合的有效性，我们选择了几个特征级别的子集，并使用它们来重新训练整个系统。结果示于表1中。很明显，即使分割质量随着更多特征级别的融合而提高，性能也倾向于快速饱和。特别是，最低的两个特征级别（1和2）只贡献了边际改进（ResNet 50为0.24%，ResNeXt 101为0.05%），这意味着在这个框架中，低级和高级特征的融合是相当无效的。在下面的小节中，我们将介绍我们的解决方案，以弥合低级和高级特征之间的差距-首先，我们介绍一下我们的基线设置：功能级别ResNet 50（%）ResNeXt 101（%）{4}70.0473.79{3， 4}72.1775.97{2， 3， 4}72.2875.98{1， 2， 3，4}72.4176.02表1. GCN[26]使用给定特征水平的分割结果。通过PASCAL VOC 2012验证集的标准平均IoU（%）评价性能。较低的特征级别涉及较少的语义但较高的分辨率特征，反之亦然（见图2）。特征提取器基于预训练的ResNet50 [15]和ResNeXt101[37]模型。以mIoU评估性能。基线设置。整个语义分割框架遵循设备齐全的GCN[26]架构，如图2所示。对于主干编码器网络，除非另有说明，否则我们使用默认在ImageNet3上预训练的ResNeXt 101 [37]模型。我们使用两个公共可用的语义分割基准35、40、25、22、4、27]。性能通过标准平均交集-并集（平均IoU）来测量其他训练和测试细节或超参数与[26]完全相同。我们重现的GCN基线评分为76.0%，如表3（#1）所示。3 尽管 ResNeXt 101 在 ImageNet 分类任务上的表现比 ResNet 101 好得多（21.2% vs.前1错误率为23.6%），我们发现语义分割结果没有显著差异（两者均为76.0% mIoU）。6Zhang等人3.1在低层特征中引入更多的语义信息我们的解决方案受到以下事实的启发：对于卷积神经网络，接近语义监督的特征映射（例如，分类损失）倾向于编码更多的语义信息，这已经被一些可视化工作所证实[39]。我们提出三种方法如下：在我们的框架中，从编码器部分中的每个阶段的尾部提取特征（图2中的res-2到res-5）。为了使低层的层（层2或层3）接近于这些层，一种可行的方法是在早期阶段布置更多的层，而不是在后期。例如，ResNeXt 101 [37]模型分别具有{3， 4， 23， 3}个构建块用于阶段2-5;我们将分配重新排列为{8， 8， 9， 8}并调整通道数量以确保相同的整体计算复杂度。实验表明，即使新设计的模型的ImageNet分类得分几乎没有变化，其分割性能也提高了0.8%（表3，比较#2和#3），这意味着低级特征的质量可能会得到改善。语义监督我们提出了另一种改进低级特征的方法，称为语义监督（SS），通过将辅助监督直接分配给编码器网络的早期阶段（见图2）。为了在辅助分支中生成语义输出，低层特征被强制编码更多的语义概念，这有望有助于以后的特征融合。这种方法受到一些旧分类网络[21，33]中使用的深度监督学习的启发，以简化深度网络的训练然而，更复杂的分类模型[34，32，15-我们的实验还表明，对于ResNet或ResNeXt模型，深度监督训练是无用的，甚至会损害分类精度（见表2）。因此，我们的语义监督方法主要关注于提高低级别特征的质量，而不是提升骨干模型本身。模型Cls错误（前1，%）分段mIoU（%）Res5024.1572.4SSRes5024.7773.5表2.语义监督（Semantic Supervision，SS）在ImageNet 2012验证集上评估分类分数图3显示了我们的语义监督块的详细结构当预训练骨干编码器网络时，组件被附接到ExFuse：增强语义分割的特征融合7每个阶段的尾部作为辅助监督（见图2）。总分类损失等于所有辅助分支的加权和然后在预训练之后，我们移除这些分支，并使用剩余部分进行微调。实验结果表明，该方法使分割效果提高了1.1%。此外，我们发现，如果从辅助模块中的第二卷积层提取特征以进行微调（图3），则获得更多的改进（1.5%）（参见表3，将#1与#2进行比较），这支持了我们的直觉，即更接近监督的特征图倾向于编码更多的语义信息。图3.第三章。我们管道中的语义监督（SS）组件的详细信息值得注意的是，最近的语义分割工作PSPNet[40]也采用了深度监督学习并报告了改进。与我们不同的是，[40]的体系结构没有明确地提取由辅助监督的特征图;并且它们的主要目的是在训练期间简化优化。然而，在我们的框架中，我们发现这些改进可能是由不同的原因造成的。例如，我们选择一个相对较浅的网络ResNet 50 [15]，并在有或没有语义监督的情况下进行预训练从表2中，我们发现辅助损失并没有提高分类得分，这意味着ResNet 50不太可能遭受优化困难。然而，它仍然将分割结果提高了1.1%，这与ResNeXt 101（1.0%）的深度情况相当我们相信，我们的框架的增强主要来自于更多的更低水平。作为上采样，大多数“U-Net”结构涉及低级特征作为上采样高级特征的残差。在等式1中，残差项F（xl）是低级别但高分辨率特征的函数，其用于填充空间细节。然而，如果低层特征包含的语义信息很少，则不足以恢复语义8Zhang等人分辨率为了解决这个缺点，我们将融合概括如下：y 1=上采样（y 1+ 1）+F（x 1，x 1+ 1，. . . ，x L）（2）其中L是特征级别的数量我们的见解是涉及更多的语义信息，从高层次的功能，以指导分辨率融合。在图4中使用了函数F（·）的最终定义，命名为S嵌入分支（SEB）。我们将组件用于级别1-3的功能（参见图2）。在我们的实验中，SEB将性能提高了0.7%（表3，比较#3和#5）。了图 4.第一章在图2中描述了结构化元素的设计。“×”的符号是逐元素乘法。如果存在多于一组的高级特征，则组件在上采样之后输出每个特征图的结果3.2将更高的空间分辨率嵌入到高级要素中对于大多数骨干特征提取器网络，高级特征具有非常有限的空间分辨率。例如，对于224×224的输入大小，ResNet或ResNeXt中最顶部特征图的空间大小为7 × 7。为了编码更多的空间细节，广泛使用的方法是扩张策略[38，5，6，35，40，4]，其能够在不重新训练骨干网络的情况下扩大特征分辨率。然而，由于高级特征图涉及许多通道，较大的空间尺寸显著增加了计算成本。因此，在这项工作中，我们主要考虑了另一个方向--不只是作为特征映射的“物理”解决方案;相反，我们期望在通道内编码更多的分辨率信息。我们提出以下两种方法：显式通道分辨率嵌入在我们的整体框架中，分割损失仅与解码器网络的输出有关（见图2），直觉上认为这对高级特征的空间信息影响较小。一个直接的解决方案是借用语义监督的思想（第3.1节）-ExFuse：增强语义分割的特征融合9地图在洞察之后，首先我们尝试向第一去卷积模块（图2中的浅蓝色分量）添加额外的分割损失，然而，没有获得改进（表4，#2）。图五、显式通道分辨率嵌入（ECRE）设计说明模块图2.为什么辅助损耗不起作用？注意，支持的目的是为了在您的映射信道中实现“高速”的高分辨率然而，由于去卷积层包括权重，因此嵌入变得隐式。为了克服这个问题，我们采用无参数上采样方法-由于子像素上采样仅通过重塑空间和信道维度来放大特征图，因此辅助监督能够显式地影响特征。部件的细节在图5中示出。实验表明其将性能提高0.5%（参见表4和表3）。指数基线SS LR ECRE Seb DAPmIoU（%）1C76.02CC77.53CC C78.34CC CC78.85CC CC79.06CC CCC79.67CC CCCC80.0表3.第3节中方法的烧蚀实验。通过PASCAL VOC 2012验证集的标准平均IoU（%）基线模型是[26]（我们的实施）。SSLRECRESEBDAP10Zhang等人x（3）i、j指数方法mIoU（%）1基线78.32Deconv +监督78.23仅子像素上采样77.64ECRE（图5）78.8表4. 显式通道分辨率嵌入（ECRE）设计的消融研究。基线模型见表3（#3）此外，为了证明改进是由显式分辨率嵌入而不是子像素上采样本身带来的，我们还尝试仅在没有辅助监督的情况下替换去卷积层。表4（#3）示出了结果，其甚至比基线更差。密集邻近预测在原始架构（图2）的解码器上游，空间位置（i，j）处的特征点主要负责相同位置处的语义信息为了将尽可能多的空间信息编码到通道中，我们提出了一种名为密集相邻预测（DAP）的新机制，其允许预测相邻位置处的结果例如（i-1，j + 1）。然后，为了得到最终的分割图，可以通过对相关联的分数求平均来生成位置（i，j）处的结果。形式上，给定窗口大小k×k，我们将特征通道分成k×k组，然后DAP工作如下：r = 1i，jk×kΣ0≤l，mk（l×k+m）i+l−k/2，j+m−k/2其中，ri，j表示位置（i，j）处的结果，并且x（c）代表属于通道组c的位置（i，j）处的特征。在图6中，我们说明DAP的概念。图六、图2中的密集相邻预测（DAP）分量的图示ExFuse：增强语义分割的特征融合11我们在解码器的输出上使用DAP（见图2）。在我们的实验中，我们设定k= 3。请注意，DAP要求将特征通道的数量增加k×k倍，因此我们将每个反卷积块的输出通道增加到189（21× 3× 3）。为了公平比较，我们还评估了具有相同数量通道的基线模型结果示于表5中。很明显，DAP将性能提高了0. 而没有DAP的对应模型仅获得边际增益，这意味着DAP可能有助于特征图嵌入更多的空间信息。指数方法mIoU（%）1基线79.02基线（更多通道）79.13DAP（图6）79.6表5. 对密集相邻预测（DAP）效果的消融研究。基线模型见表3（#5）3.3讨论功能融合是否得到增强？在第3节开始时，我们证明了我们的基线架构（GCN[26]）中的特征融合是无效的。如表1所示，通过融合低级别特征（级别1和级别2）仅我们把这个问题归因于低级别和高级别功能之间的语义和分辨率在第3.1节和第3.2节中，我们提出了一系列解决方案，将更多的语义信息引入到低级特征，并将更多的空间细节引入到高级特征中。尽管性能得到了改善，但仍存在一个问题：框架中的特征融合真的得到了改善吗？为了证明这一点，类似于表1，我们比较了不同特征级别的几个子集，并分别使用它们来训练原始基线（GCN）和我们提出的模型（ExFuse）。对于ExFuse模型，使用第3.1节和第3.2节中的所有5种方法。表6示出了结果。我们发现，结合低级别的特征映射（1级和2级），所提出的ExFuse仍然实现了相当大的性能增益（1.3%），而基线模型不能从中受益。比较表明，我们的见解和方法确实提高了功能融合。表6还示出了在仅使用最顶部特征图（级别4）的情况下，所提出的模型比基线好得多，这意味着比原始模型更优越的高级特征质量。我们的进一步研究表明，第3.2节中的方法贡献了大部分的改进。经验上，我们得出结论，提升高级功能不仅有利于特征融合，而且也直接有助于分割性能。12Zhang等人功能级别原始GCN [26]（%）ExFuse（%）{4}73.7977.29{3， 4}75.9778.69{2， 3， 4}75.9879.11{1， 2， 3，4}76.0280.04表6.使用给定特征水平比较原始GCN [26]和ExFuse的分割结果骨干特征提取器网络都是ResNeXt 101。这种观点和技术是否可以推广到其他计算机视觉任务？由于U-Net结构广泛应用于其他视觉任务，如低级视觉[29]和检测[23]，因此自然会产生一个问题：所提出的观点和技术是否可以推广到其他任务？我们仔细地进行了消融实验，并观察到积极的结果。我们把详细的讨论留给今后的工作。4PASCAL VOC 2012实验在最后一节中，我们介绍了我们的方法，并通过消融实验评估其在本节中，我们将研究配备齐全的系统，并报告PASCAL VOC 2012测试集的基准测试结果。为了进一步提高特征质量，我们使用更深的ResNeXt 131作为我们的骨干特征提取器，其中还涉及挤压和激发模块[17]。阶段2-5的构建块的数量分别为{8， 8， 19， 8}，其遵循第3.1节的思想。使用ResNeXt 131，当使用来自PASCAL VOC 2012[10]和语义边界数据集（SBD）[13]的10582张图像进行训练时，我们获得了0.8%的性能增益并实现了80.8%的mIoU，在相同的设置下比DeepLabv3[6]好2.3%遵循与[5，12，6，2，26，35，40，22，4]相同的过程，我们采用Microsoft COCO数据集[24]来预训练我们的模型。COCO有80个类，我们只保留PASCAL VOC 2012中相同的20个类的图像，所有其他类都被视为背景。培训过程有三个阶段。在第1阶段，我们混合了COCO，SBD和标准PASCAL VOC 2012中的所有图像在第2阶段，我们使用SBD和PASCAL VOC 2012训练图像。最后，对于第3阶段，我们只使用标准PASCAL VOC 2012训练集。我们继续指数 ResNeXt 131COCO翻转mIoU（%）1（ResNeXt 101）80.02C80.83C C85.44C c C85.8表7. PASCAL VOC 2012验证集ExFuse：增强语义分割的特征融合13图像裁剪尺寸在整个训练过程中保持不变，所有其他设置与[26]完全相同。COCO预训练带来了另外4.6%的性能提升，如表7所示（#2和#3）。我们进一步将图像的分数图与其水平翻转版本进行平均，并最终在PASCAL VOC 2012验证集上获得85.8%的mIoU，比DeepLabv3+ [7]好2.3%（表7 #4）。类似于[6]，然后我们冻结批量归一化参数，并在官方PASCALVOC 2012训练集上微调我们的模型特别地，我们复制了包含硬类的图像（即自行车、椅子、餐桌、盆栽和沙发）。最后，我们的ExFuse框架在PASCAL VOC 2012测试集上实现了87.9%的mIoU，而没有任何DenseCRF [19]后处理，这超过了之前的最先进结果，如表8所示。为了公平比较，我们还使用标准ResNet101评估了我们的模型，它达到了86.2%的mIoU，在相同的设置下优于DeepLabv3。方法Miou[35]第三十五话83.1[26]第二十六话83.6[22]第二十二话84.2ResNet 38 MS COCO [36]84.9PSPNet [40]85.4DeepLabv3 [6]85.7SDN [11]86.6DeepLabv3+（Xception）[7]87.8ExFuse ResNet101（我们的）86.2ExFuse ResNeXt131（我们的）87.9表8. PASCAL VOC 2012测试集图7可视化了GCN [26]基线和我们提出的ExFuse框架的一些代表性结果。很明显，我们的方法的可视化质量比基线好得多。例如，ExFuse中的边界比GCN更精确。5结论在这项工作中，我们首先指出无效的特征融合问题，在当前-租用U-Net结构。然后，我们提出了我们的ExFuse框架来解决这个问题，通过弥合高层次的低分辨率和低层次的高分辨率功能之间的差距。最后，更好的特征融合表现出的性能提升时，与原始的低级别功能融合和整体分割性能提高了很大的利润。我们的ExFuse框架还在PASCAL VOC 2012基准测试中实现了新的最先进性能。14Zhang等人图7.第一次会议。PASCAL VOC 2012验证集的语义分割结果示例(b)是我们的GCN [26]基线，其在val集上实现了81.0%的mIoU。(c)是我们的方法，在val集上实现了85.4%，如表7 #3所示。ExFuse：增强语义分割的特征融合15引用1. Aitken，A.，莱迪格角泰斯湖卡瓦列罗，J.，王志，Shi，W.：无棋盘伪影的子像素卷积：关于子像素卷积、调整卷积大小和调整卷积大小的说明（2017）2. Amirul Islam，M.，Rochan，M.，布鲁斯，N.D.B.，王毅：用于密集图像标记的门控反馈细化网络。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）3. Badrinarayanan，V. Kendall，A.，Cipolla，R.：Segnet：用于场景分割的深度卷积编码器 - 解码器架构。 IEEETransactionsonPat-ternAnalysandMachineIntelligencePP（99），1- 1（2017）4. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：使用深度卷积网络和全连接crf的语义图像分割。计算机科学（4），3575. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。IEEETransactions on Pattern Analysis and MachineIntelligencePP （ 99 ）， 1- 1（2016）6. Chen，L.C.，帕潘德里欧，G.，Schroff，F.，Adam，H.：Rethinkingatrous convolution for semantic image segmentation（2017）7. Chen，L.C.，Zhu，Y.，帕潘德里欧，G.，Schroff，F.，Adam，H.：使用atrous可分离卷积进行语义图像分割的编码器-解码器（2018）8. Dai，J.，他，K.，孙杰：Boxsup：利用边界框来监督卷积网络进行语义分割。在：IEEE国际会议上的C〇mputerrVi s ision.pp. 16359. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，Li，F.F.：Imagenet：一个大规模的分层图像数据库。在：计算机视觉和模式识别，2009年。CVPR2009。 IEEEConfencen。pp. 24810. Everingham，M.古尔湖威廉姆斯，C.K.，Winn，J.，齐瑟曼，A.：pascal视觉对象类（voc）的挑战。International Journal of Computer Vision88（2），30311. Fu，J.，刘杰，王玉，Lu，H.：用于语义分割的堆栈解卷积网络（2017）12. Ghiasi，G.，Fowlkes，C.C.：用于空间数据段的拉普拉斯金字塔重建和精化。 In：EuropeanConferenceonCom up uterVison。pp. 第51913. Hariharan，B.，Arbelaez，P.，Bourdev，L. Maji，S.，Malik，J.：语义轮廓来自于被调查者。 In：InternatinalConf erenceonComuterVison。pp. 99114. Hariharan，B.，Arbelaez，P.，格尔希克河Malik，J.：用于对象分段和查找的超列。44715. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。Iη：C〇mputerVisisinandPater nRecognitin。pp. 77016. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射。In：EropeanConfer enceonCom up uterVison。pp. 63017. 胡， J ， Shen ， L. ， Sun ， G. ：压缩 - 激励网络。 arXiv 预印本 arXiv ：1709.01507（2017）18. Ioffe，S.，Szegedy，C.：批次标准化：通过减少计算量来加速深度网络训练。44816Zhang等人19. K r¨ahenb u¨hl，P.， K oltun，V. ：在完全连接到带有使用的地理位置的文件时的效率。在：Avancesineuralinner matonpoce ssssysss in。pp. 10920. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在：神经信息处理系统国际会议。pp. 109721. Lee，C.Y.，Xie，S.，Gallagher，P.，张志，图，Z.：深度监督网络。Eprint Arxivpp. 第56222. 林，G.，Milan，A. Shen，C.，Reid，I.：Refinenet：用于高分辨率语义分割的多路径细化网络（2016）23. 林， T. 是的，做吧， PGir shi ck ， R. ， He ， K. ， Hariharan ， B.Belongie，S. ：用于对象检测的Feature24. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：Microsoft coco：上下文中的公共对象在：欧洲会议上CommputerrVision. pp. 74025. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。 Iη：C〇mputerV isisinandPater nRecognitin。pp. 343 126. 彭，C.，张，X.，Yu，G.，罗，G.，孙杰：大内核问题27. Pohlen，T.，Hermans，A. Mathias，M.，莱贝B：用于街道场景语义分割的全分辨率残差网络（2016）28. Ronneberger，O.，Fischer，P.，Brox，T.：U-Net：用于生物医学图像分割的卷积网络Springer International Publishing（2015）29. 沈，X.，Chen，Y.C.，陶X Jia，J.：图像处理的卷积神经金字塔（2017）30. 施伟，卡瓦列罗，J.，胡萨尔，F.托茨，J.，Aitken，A.P.，毕晓普河，巴西-地吕克特D、Wang，Z.：使用高效的子像素卷积实现实时单图像和视频超分辨率。187431. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。计算机科学32. 塞格迪角 Ioffe ， S. ， Vanhoucke ， V. ， Alemi ， A.A. ： Inception-v4 、Inception-resnet以及恢复期间的连接恢复的重要性。In：AAAI.pp. 427833. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，Erhan，D. ， Vanhoucke ， V. ， Rabinovich ， A. ：更深的回旋。在：计算机VisionandPater nRegnition。pp. 134. 塞格迪角Vanhoucke，V.，Ioffe，S.，Shlens，J.，Wojna，Z.：重新思考计算机视觉的接收架构。 In ： Proceedings of the IEEE Conference on C 〇mputerVis i sinandPater nRec 〇 gnit i tin. pp. 281835. 王，P.，陈佩，Yuan，Y.，Liu，D.，中国科学院，黄志，侯，X.，Cottrell，G.：理解语义分割的卷积（2017）36. 吴志，Shen，C.，Hengel，A.V.D.：更宽或更深：重新审视用于视觉识别的resnet模型（2016）37. Xie ， S. ，Gir shi ck ， R. ，做吧， PTu ， Z. ，H e ， K. ：Aggreggatedresidualtransformsfor deep neural networks（2016）38. 余，F.，Koltun，V.：通过扩张卷积进行多尺度上下文聚合（2015）39. Zeiler ，医学博士， Fergus ， R. ：可视化和理解卷积网络。 In ：Europeanconferenceoncommputtervision. pp. 818-833 02TheDog（2014）40. 赵，H.，施，J.，Qi，X.，王，X.，Jia，J.：金字塔场景解析网络（2016）

下载后可阅读完整内容，剩余1页未读，立即下载