基于知识自适应的高效语义分割

135 浏览量更新于2023-10-17 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

578基于知识自适应的高效语义分割何彤1沈春华1田智1龚冬1孙长明2 严友良31阿德莱德大学2Data61，CSIRO3诺亚摘要Miou准确性和效率都很重要语义分割的任务现有的深度由于一系列的72，高分辨率特征图，以保存详细的密集估计中的知识。虽然减少了fea-真实地图分辨率（即，施加大的总步幅）通过70子采样操作（例如，轮询和卷积步长，ing）可以立即提高效率，它显着de-69提高了估计精度。为了解决这一难题，我们提出了一种知识蒸馏方法，语义分割，以提高具有大的整体步幅的紧凑型FCN的性能。去处理-510 152060FLOPS（G）为了确保学生和教师网络的特征之间的一致性，我们优化了通过利用预训练的自动编码器制定的转移的潜在域此外，提出了一个亲和蒸馏模块为了验证我们提出的方法的有效性，已经在三个流行的基准上进行了广泛的实验： Pascal VOC ， Cityscapes and PascalContext.建立在一个极具竞争力的基线，我们提出的方法可以提高2.5%的学生网络的性能（mIOU从70.2提升到72.7的城市景观测试集），可以训练一个更好的紧凑型模型，只有8%的浮动操作（FLOPS）的模型，实现可比的性能。1. 介绍语义分割是图像理解的一项重要且具有挑战性的任务[3，5，4，33，14，33，16，17，24]。它的目标是为输入图像预测一个密集的标签映射，为每个像素分配一个唯一的类别标签。语义分割在自动驾驶和视频监控等领域显示出巨大的应用潜力。最近，基于深度全卷积网络（FCN）的方法[3，5]在语义分割方面取得了显著的成果广泛的方法已被调查，以提高-*通讯作者。图1-FLOPS和性能之间的关系。蓝点是学生模型（MobilNetV2）的性能，而红点是学生模型的性能与我们提出的知识蒸馏方法。性能在PASCALVOCtrainaug套件上进行培训，并在val套件上进行测试。OS表示输出步幅。在我们提出的方法的帮助下，具有低分辨率（16s）的特征图的学生模型比具有大特征图（4s）的模型仅使用8%的FLOPS。通过引入具有大量参数的复杂模型来证明性能为了在密集估计中保留详细的例如，Chen提出了DeepLabV 3+[5]，并在许多开放基准上实现了最然而，这是在一个大模型上得到的：Xception-65 [6]，它包含超过41.0M的参数和1857 G FLOPS，如果输出步幅设置为16，则在单个1080Ti GPU卡上以1.3 FPS运行。更糟糕的是，将需要6110G FLOPS，并以0.4 FPS运行，输出步幅为8。类似的情况可以在轻量模型中找到（见图1）。①的人。解决这一限制的一种即时方法是通过子采样操作（如池化和卷积步幅）来降低一系列特征图的分辨率。然而，估计准确性将不令人满意，OSOUO木卫.9,3.23：32：68OSmIoUFLO学生：16岁U：70.5，PS：M3.23FL.7,：70附言mIoUFLO：32OS：4：72.3，PS：OSmIoUFLO871.9,17.70操作系FL：72.5，S：5.50mIFL：72.9，：17.70MiouFLOPS：16OPS：67.03FL：8OS操作系统：4mIoU：73.0，579详细信息的巨大损失。如何解决这一难题，在精度和效率之间找到一个更好的平衡点，由Hinton [11]引入深度学习领域的知识蒸馏（KD）因其简单性和效率而备受关注。[11]中的知识被定义为来自大型教师网络的软标签输出，它包含比one-hot编码更多有用的信息，例如类内相似性。学生网络同时由软标签和硬独热标签监督，通过超参数调节损失权重。在KD [11]之后，提出了许多方法[20，12，30，28，13]来调节中间特征。然而，这些方法主要是针对图像级分类任务而设计的，没有考虑空间上下文结构。此外，在语义分割任务中，教师和学生的特征图通常具有不一致的上下文和不匹配的特征。因此，这些方法都不适合直接用于语义分割。在本文中，我们提出了一种新的知识蒸馏方法，专门为语义分割。我们的目标是学习高效的紧凑型FCNs（即。学生）通过从准确但繁重的教师中提炼出丰富而强大的知识，首先，与其他迫使学生直接模仿教师网络输出值的方法不同，我们将教师丰富的语义知识重新表达为紧凑的表示。学生被训练去匹配这种隐含的信息。知识翻译是依靠一个自动编码器来实现的，该编码器以非监督的方式对教师特征进行预训练背后的直觉很简单：直接传递教师的输出忽略了两种模型之间网络结构的内在差异。紧凑的表示，另一方面，可以帮助学生专注于最关键的部分，通过删除冗余的知识和嘈杂的信息。此外，我们还提出了一个亲和蒸馏模块来调节之间的关系，Pact学生模型• 我们提出了一个亲和蒸馏模块来帮助学生网络从教师网络中捕获长期依赖关系。• 我们验证了各种设置下的方法的有效性(1)我们的方法提高了性能在不引入额外参数或计算的情况下，学生模型可以大幅度（%2）。(2)与具有大分辨率输出的模型相比，我们的模型仅用8%的FLOPS2. 相关工作在这一部分中，我们回顾了与我们的工作最相关的文献，包括语义分割的最新研究和相关的知识提取方法。语义分割是计算机视觉中一个基本而又具有挑战性的任务。随着全卷积网络的出现，已经取得了很大的进展。在这些成功的因素中，丰富的空间信息和相当大的感受野是两个重要的线索[4，3，5]。Chen等人提出了DeepLab-CRF [3]，它应用密集CRF作为后处理步骤，以细化分割结果并在CNN顶部捕获更好的边界。这种方法被CRF-RNN [34]扩展，其中CRF被实现为嵌入的内层in a network网络for end-to-end端to-end端learning学习. Lin等[14]提出了一种多路RefineNet，通过使用长距离残差模块捕获下采样操作时的所有信息，输出高分辨率结果。最近，Chenet al.提出了DeepLabV3 [4]和DeepLabV3+ [5]，它们采用了自动卷积运算，有效地扩大了接收场，捕获了丰富的语义信息。这些方法通过输出高分辨率的特征图来减轻细节和边界的丢失，从而提高了性能。然而，考虑到GPU资源和计算效率的限制，1甚至更密集的1大小的输入分辨率教师和学生之间的空间区域相距甚远-8 4dent.与大型模型相比，具有较少参数的小型模型很难捕获长期依赖性，并且由于有限的感受野，可能在统计上很脆弱提出的亲和度模块通过示例性计算跨整个图像的成对非局部相互作用总结起来，我们的主要贡献如下。• 我们提出了一种新的知识蒸馏方法，用于语义分割，将教师网络的输出重新解释为重新表示的LA，这是一个比较容易被人了解的领域，在当前的模型设计中是不现实的例如当ResNet-101 [10]使用atrous卷积输出16倍小的特征图，最后9个卷积层将使用更多的计算和存储。更糟糕的是，26个残余块（78层！）如果需要比输入小8倍的输出特征，则将受到影响。在本文中，我们提出了一种新的方法，成功地压缩这些密集的信息从教师网络和提取紧凑的知识，以低分辨率输出的学生网络。知识蒸馏[11]的研究是将知识蒸馏应用于5800.20.80.30.20.80.3图2-为语义分割量身定制的知识自适应方法的详细框架。教师网络被冻结并输出高分辨率特征图。学生网络输出小尺寸的特征图，并通过地面真值标签和压缩空间中定义的知识以及亲和度信息进行更新。图像分类任务。知识被定义为教师网络的软输出，它提供了比独热编码更有用的信息，如类内相似性和类内多样性软化度由超参数温度T控制。学生网络由两个损失监督，这两个损失由损失权重协调。尽管它在图像分类上是有效的，但它在语义分割任务中的应用存在一些限制：（1）[20]中的作者试图迫使学生在决策空间中模仿教师网络的输出分布，其中有用的上下文信息被级联。(2)图像级分类所需的知识在两个模型之间是相似的，因为两个模型都捕获全局信息。但是对于语义分割，决策空间可能不同，因为两个模型具有不同的捕获上下文和长范围依赖关系的能力，这取决于网络体系结构。（3）超参数温度对任务敏感，难以调整，特别是在大型基准上。在[11]之后，提出了许多其他方法来进行知识蒸馏。Romero等人提出了FitNet [20]，目的是通过直接对齐特征图来学习中间表示，这可能不是忽略两个模型之间固有差异的好选择，例如空间分辨率，通道数量和网络架构。同时，两种模型之间显著不同的吸收能力可能会使这种情况更加严重。注意力转移[30]（AT）旨在模仿学生和教师模型之间的注意力地图。它是基于这样的假设，即跨通道维的特征图的总和可以表示在图像分类任务中的注意力分散。然而，这种假设可能不适合逐像素分割任务，因为不同的通道表示不同类别的激活，并且简单地跨通道求和将以混合注意力图结束。在我们的工作中，我们提出了一个新的亲和度提取模块，将这些长距离的依赖性从教师模型转移到学生模型。3. 该方法在atrous卷积运算的帮助下，具有较小总体输出步幅的网络在捕获详细信息方面通常优于具有较大总体输出步幅的网络，如图1所示。受此启发，我们提出了一种新的知识提取方法tail-lored语义分割。如图2所示，整个框架涉及两个独立的网络：一种是教师网络，其输出具有较大分辨率的特征（例如，8s总步幅），另一个是学生网络，其具有较小的输出（例如，16秒的总步幅）进行快速推理。知识被定义为两部分：(1) 第一部分用于将教师网络中的知识转换为信息量更大的压缩空间翻译器通过训练自动编码器将知识压缩为紧凑格式教师特色教师模型（8s）编码器E（x;wE）压缩知识解码器D（x;知识翻译重构损失功能适配器Affinity适配器0.10.20.30.50.20.60.10.20.3亲和力学生模特（16秒）0.30.20.10.60.20.50.30.60.80.20.20.5581这是更容易被学生网络学习，其他明智的，由于固有的结构差异，更难。(2) 第二部分是为了从教师网络中捕获远程依赖，这是很难学习的小模型，由于有限的接收场和抽象能力。以下各节提供了更多详细信息。3.1. 知识翻译与顺应得益于atrous卷积操作，FCNs可以保持详细的信息，同时捕获一个大的感受野。虽然性能得到了提高，但会引入大量的计算开销，并且随着输出步幅变小，计算开销将呈指数级增长，如图1所示。在本节中，我们建议利用具有高特征分辨率的大型教师模型来教授具有低特征分辨率的轻量级学生网络。自动编码器试图重建输入，能够捕获有用和重要的信息。我们训练了一个自动编码器来挖掘隐含的结构信息，并将知识转换为更容易被学生网络理解和复制的格式。与低级和中级特征相比，高级特征更适合我们的情况，低级和中级特征要么在不同的模型中通用，要么由于固有的网络差异而难以转移。在我们的方法中，自动编码器将教师模型的最后一个卷积特征作为输入，并由三个跨卷积层和对称反卷积层组成。假设我们有两个网络，即学生网络S和教师网络T，两个模型的最后一个特征映射分别是Φs和Φt。培训过程完成通过使用Eq. （1）、Lae=<$Φt−D（E（Φt））<$2+α<$E（Φt）<$1（1）其中E（·）和D（·）表示编码器和解码器r，req。训练自动编码器模型可能只学习到一个恒等函数，这意味着提取的结构知识更可能与输入特征共享相同的模式。由于已知l1范数可以产生稀疏表示，因此通过正则化权重和重新表示的空间来利用类似的策略[1]。对于所有实验，正则化损失α的权重设置为10−7为了解决特征不匹配的问题，降低了效果针对两种模型固有的网络差异，通过增加卷积层来利用特征适配器。依赖于预训练的自动编码器，传输过程在等式中形式化。（二）、(a)(b)（c）第（1）款图3(a)输入图像和随机选择的带有红色“+”的点。(b)没有仿射蒸馏模块的学生模型的给定点的仿射图。(c)我们的亲和蒸馏模块增强的亲和图。其中E表示预训练的自动编码器。I表示所有位置的所有学生-教师对的指数。Cf是student特性的适配器，它使用3× 3内核，步幅为1，填充为1，BN层和ReLU活动。vation函数特征在匹配之前被归一化。p和q是不同的规范化类型，用于规范化知识以获得稳定性。3.2. 亲和蒸馏模块捕获长距离依赖性是重要的，并且可以有益于语义分割的任务。如[26]所述，它更容易被具有大感受野的深堆叠卷积层捕获另一方面，由于缺乏抽象能力，小型网络学习这些知识的能力有限我们提出了一个新的亲和蒸馏模块显式提取远程，非局部依赖的大教师模型。详情如下所述。在学习的情况下，有时通过提供额外的差异或相似性信息来学习新知识会更有效。受此启发，我们通过直接计算任意两个位置之间的相互作用来定义网络中的亲和力，而不管它们的空间距离如何。因此，具有不同标签的像素将生成-¨1Σ¨C（Φj）¨E（Φj）<$为像素设置低响应和高响应，L=<$fs−t<$相同的标签。设最后一层的特征图为Φadapt（2）|j ∈ I-C f（Φ s）<$q <$E（Φt）<$q-p|j∈I ¨ ǁ C f(Φs)ǁqǁE(Φt )ǁq¨p大小为h×w×c，其中h、w和c表示数量。582高度、宽度和通道的BER。亲和矩阵A∈Rmm可以通过等式（1）计算。(3)其中m等于h×w，i和j是向量化Φ的索引表1 -拟定方法的消融。T：教师模型的输出步幅为8秒。S：Student模型（遵循[21]的实现，没有ASPP和解码器）的输出步幅为16 s。KA代表知识适应。 FLOPS的估计输入大小为513×513。A（Φ）i，j=1高×宽·ΦiΦi·Φj公司简介、（3）为了公平比较，所有模型都在Pascal VOC训练上训练augset [9]在没有COCO数据集预训练的情况下对valset进行了测试可以看出，我们所提出的方法与小特征分辨率超过- forms的学生模型与大特征分辨率只有31%的FLOPS。其中A（Φ）表示对应于具有谱归一化的特征图Φ我们使用2次损失来匹配教师和学生模型，其被定义为Eq. （四）ΣLaff=<$（As（Ca（Φs）−At（E（Φt））<$2（4）我其中E（Φt）是来自教师的翻译知识，Ca是学生亲和度的适配器，i是特征图的位置索引。为了可视化亲和蒸馏模块的效果给定一个随机选择的点，该点与所有其他分离的空间区域之间的响应如（b）和（c）所示。如可以看到的，学生网络未能捕获这种远程依赖性，并且仅局部相似模式被突出显示。在我们的方法的帮助下，远程甚至全球的信息被捕获，并可以用来做出更稳健的决策。3.3. 训练过程我们提出的方法涉及一个教师网和一个学生网。如算法1所示，教师网络是预先训练的，并且在训练和传输过程中保持参数冻结。学生网被三个亏损所监管：交叉熵损失Lce与地面实况标签，适应损失Ladapt在等式(2)和等式中的亲和力转移损失Laff。（四）、三个损失由β和γ的损失权重来表示，在我们所有的实验中，β和γ的损失权重WE、WD和WS分别表示编码器、解码器和学生模型的参数。算法1我们方法的训练过程要求：已培训过网络教师T。第一阶段：为教师网络训练自动编码器。输入：来自教师网络的知识Φt;WtWE=arg minWE，WDLae（Φt;Wt）阶段2：训练学生网络。输入：编码器参数WEWS= arg minWSLce+βLadapt+γLaff4. 实验在本节中，我们首先介绍了我们实验的数据集和实现细节广泛消融研究随后调查我们提出的方法的有效性。最后，我们报告了我们的结果，并在三个流行的基准上与其他轻量级模型进行了比较：Pascal VOC [8]，Cityscapes [7]和Pascal Context [18]。4.1. 数据集Pascal VOC。该数据集包含1，464张用于训练的图像，1，449张用于验证，1，456张用于测试。它包含20个前景对象类和一个额外的背景类。此外，数据集还通过[9]提供的最终的性能是衡量在跨21个类的平均像素的交集超过工会（mIOU）。城市景观。该数据集侧重于对城市街道场景的语义理解，其中包含1024×2048像素的高分辨率图像和感像素级注释。该数据集包括从50个城市收集的5，000张经过精细注释的图像，并分为2，975张500人用于验证，1，525人用于测试。在评估协议之后，使用30个语义标签的19个输出进行评估。Pascal Context. 该数据集总共包含10，103张图像，其中4，998张用于训练，5，105张用于验证。在[18]之后，方法在最常见的59个类上进行评估，其中有一个背景类。4.2. 实现细节MobileNetV2，最近由Sandler等人提出。[21]由于其计算效率以及在精度和由FLOPS测量的操作数量、实际延迟和参数数量之间的最佳折衷而吸引了很多关注。还有MobileNetV 2 -1.3和MobileNetV 2 -1.4，它们分别是宽度乘数为1.3和1.4的[21]中的移动分割模型使用DeepLabV3的简化形式[4]。基于这一坚实的基础，我们的方法mIOU%）FLOPSParamsT：ResNet-50-8s [1]76.2190.24B26.82MS1：MobileNetV2-16s [21]70.575.50B2.11MS2：MobileNetV2-8s [21]71.9017.70B2.11MS1+affinit-16s71.535.5B2.11MS1+KA+亲和力-16s72.505.5B2.11M583表2-MobilNetV2是一个宽度倍增器。通过在训练集上训练获得性能。方法mIOU（%）FLOPSParamsT1：ResNet-50 [1]76.2190.24B26.82MT2：Xception-41 [6]77.274.69B27.95S1：MobileNetV2-1.0 [21]70.575.50B2.11MS2：MobileNetV2-1.3 [21]72.609.02B3.38MS3：MobileNetV2-1.4 [21]73.3610.29B3.88MT1+S1+我们的方法72.505.5B2.11MT2+S1+我们的方法72.405.5B2.11MT1+S2+我们的方法74.269.02B3.38MT1+S3+我们的方法74.0710.29B3.88M方法在不引入额外参数和计算开销的情况下显著提高了性能。教师培训网。为了证明我们方法的有效性，我们选择了两个完全不同的教师模型， ResNet-50 [10]和Xception-41 [6]。该算法利用无环卷积和无环空间金字塔池（ASPP）技术，得到一系列大尺寸的特征图。我们在训练中使用小批量随机梯度下降（SGD），批量大小为16（至少12），动量为0.9，权重衰减为4×10−5。与[5]类似，我们应用幂为0.9的多学习率策略最初的学习-的比率为0.007。一般的数据增强方法也用于网络训练，例如随机翻转图像和随机执行尺度抖动。对于Pascal VOC数据集，训练过程可以分为两个步骤。首先，我们在COCO数据集上训练300K次迭代，然后在trainaug数据集上训练30K次迭代[9]。对于Cityscapes数据集，我们没有在COCO数据集上对模型进行预训练我们在train-fine数据集上训练了90 K次迭代，该数据集在trainval和train-coarse上进行了微调，以在测试数据集上进行评估对于Pascal上下文数据集，COCO数据集不用于预训练。在训练集上训练30k次迭代，并在val集上进行评估。训练自动编码器。我们在一个epoch内完成了自动编码器的训练，学习率为0。1.一、10−4的大权重衰减用于将低能量归因于较小部分的输入点。训练整个系统。大多数训练参数与训练教师网络的过程类似，除了我们的学生网络不涉及ASPP和解码器，这与[21]完全相同在atrous卷积的帮助下，生成低分辨率特征图。在训练过程中，教师网络W_T的参数和自动编码器W_E的参数是固定的而不更新。4.3. 消融研究在本节中，我们描述了我们提出的方法的每个组件在不同设置下的有效性。知识适应与亲和力消融蒸馏模块为了充分利用丰富的空间信息，形成，我们建议将知识从教师和学生模仿这种紧凑的格式。提出了仿射蒸馏模块来弥补小学生模型的有限感受野。为了更好地理解，我们在图3中可视化了亲和蒸馏模块的效果。从图3中可以看出，在我们提出的方法的帮助下，捕获了更多的上下文和长期依赖性我们在表1中显示了统计结果，其中使用mIOU 评估了性能。该模型在 PascalVOCval集上以一个单一尺度进行测试，而无需在COCO数据集上进行预训练。可以看出，亲和蒸馏模块将性能从70.57提高到71.53，并且另一个0.97在知识适应的帮助下。由于如果两个模型具有不同的输出特征，则亲和矩阵不匹配，因此为了显示单个亲和模块的效果我们的输出步幅为16的MobileNetV2甚至优于输出步幅为8的MobileNetV2，仅使用31%的FLOPS。在图2中可以找到与不同输出步幅设置的更多比较，其中我们的16s模型在不引入额外参数的情况下仅使用8% FLOPS，表现甚至优于具有4s输出的基线模型不同网络的消融。根据[21]，Mo-bileNetV 2通过使用宽度乘数作为可调超参数来调整框架以实现不同的准确性，该参数用于调整准确性和效率之间的权衡在我们的实验中，我们选择了1.3和1.4的宽度乘数，这是在ImageNet上使用预先训练好的模型实现的。为了验证我们提出的方法的有效性，我们选择了两种完全不同的网络架构，ResNet-50 [10]和Xception-41 [6]。结果示于表2中。的表3-Pascal VOC2012 val集与KD [11]和FitNet[20]的性能比较。所有结果都是通过仅在Pascal VOCtrainaug集上进行训练来实现的方法mIOU（%）T：ResNet-50 [1]76.21S：MobileNetV2 [21]70.57S+KD [11]（t=2）71.32S+KD [11]（t=4）71.21S+KD [11]（t=8）70.74S+FitNet [21]71.30S+Ours72.50584(a)投入（b）GT（c）S（d）KD（e）Ours（f）T图4(a)输入图像。(b)地面真相(c)学生网络MobileNetV2的结果[21]。 (d)[11]第二章知识的升华[21] (e)我们提出的方法与MobileNetV2的结果[21]。(f)教师网络的结果，这是ResNet50 [10]。图5我们的方法使用翻译器和适配器，使学生网络更容易学习和复制的知识。MobileNetV 2 -1.0的性能提高1. 93和1。在ResNet-50和Xception的指导下进行了83项改进表4valset. “-” means not41、分别1的改进。66和0。71也观察到不同的学生网络：MobileNetV 2-1.3 MobileNetV2 -1.4知识升华的其他方法消融表5在单个1080Ti GPU上测试速度，输入大小为513× 513。基线是我们的MobileNetV2实现。方法基本模型FPSmIOU（%）CRF-RNN [34]VGG-16 [23]7.672.9多尺度[29]VGG-16 [23]16.773.9DeeplabV2 [3]VGG-16 [23]16.775.2[21]第二十一话MobileNet120.775.3基线MobileNet120.774.8我们MobileNet120.775.8表6-我们提出的方法与其他轻量级模型在Cityscapes val和测试数据集上的性能和计算比较。运行时间都是在输入大小为1025× 2049的情况下计算的。“-” means not方法FLOPSParamsmIOU（%）PSPNet [33]20172647.4ms-80.2[17]第十七话135.21G1.48M37.8[27]第二十七话20173089.9ms77.8678.4ParseNet [16]162.82G21.53M40.4SegNet [2]201589.2ms-57.0分段CRF [15]>100G-43.3ENet [19]201619.3ms-58.3[22]第二十二话>100G-42.6[25]第二十五话2016--59.8ICNet [32]201833.0ms67.770.6[21]第二十一话5.52G2.12M39.9[21]第二十一话201838.0ms68.970.2我们5.52G2.12M41.2我们-38.0ms71.072.7方法年时间mIOU（%）Val测试DeepLabV2 [3]2016652.9ms-71.4[29]第二十九话20173549.5ms-67.1585图6从左到右依次为：（1）输入图像，（2）地面实况，（3）学生网络的结果（4）我们提出的方法的结果。在本实验中，我们与其他已知的蒸馏方法进行了比较：KD [11]和FitNet [20]是为图像级分类而设计的。[11]中定义的知识是教师网络输出的软标签软化程度由超参数温度t控制，其对学习和学习过程具有显著影响。我们把t设为2，4，6。为了进行公平的比较，我们对logits映射进行双线性上采样，以达到教师网络的大小在Pascal VOCval数据集上评估结果所有结果都是在没有COCO数据集预训练的情况下实现的FitNet [20]与KD不同，它试图匹配两个模型之间的中间表示。但这需要类似的网络设计。在我们的实验中，我们直接对最后一层的特征图进行上采样，并添加1002 的损失。损失曲线如图5所示。我们提出的方法成功地将教师的知识转化为更容易学习的格式。如表3所示，在不同的T设置下观察到mIOU的波动。我们的方法实现了比KD更好的性能，所有实验和数据集的所有我们的方法也比FitNet高出1。2分，表明我们的方法定义的知识体现了两个网络的内在差异。与传统方法相比，图4中的定性分割结果直观地证明了我们的蒸馏方法对于需要更多上下文信息的对象的有效性，这是由我们提出的亲和性转移模块捕获的另一方面，知识翻译器和适配器减少了详细信息的丢失，并产生更一致和细节保留的预测，如图6所示。与其他轻量化车型相比。我们首先在 PascalContext数据集上测试我们的方法。结果示于表4中。我们提出的方法将基线提高了1.3个点。然后，我们将我们提出的方法与Pascal VOCval数据集上的其他最结果示于表5中。我们的模型产生mIOU75.8，这在数量上优于几个不关心速度的方法。它还将MobileNetV2的基线提高了约1个点。最后，在Cityscapes数据集上验证了该方法的有效性它在val和test数据集上分别达到70.3和72.7 mIOU。即使建立在一个高度竞争的基线上，我们的方法也将性能提高了2.1和2.5个点，而没有引入额外的参数和计算开销，如表6所示。5. 结论本文提出了一种面向语义分割的知识提取我们通过将高级特征转换为更容易学习的紧凑格式来大量的实验证明了该方法的有效性。即使建立在一个高度竞争的基线上，我们的方法（1）在不引入额外参数或计算的情况下大幅提高了学生模型的性能（2）以更少的计算开销获得了鸣谢感谢华为技术有限公司捐赠GPU云计算资源。586引用[1] 巴巴吉德岛Ayinde和Jacek M.你好深度学习约束自动编码器以增强对数据的理解。IEEE跨神经网络&学习.系统，2018年。[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegNet ： ADeepConvolutionalEncoder-DecoderArchitec- ture For Image Segmentation. IEEE传输模式分析马赫内特尔，2017年。[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos ， Kevin Murphy ， and Alan L. 尤尔。DeepLab：使用深度卷积网络，Atrous卷积和全连接Crfs进行语义图像分割。IEEE Trans. Pattern Anal.马赫内特尔，2017年。[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再论Atrous卷积在语义图像分割中的应用。arXiv预印本arXiv：1706.05587，2017.[5] Liang-Chien Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.基于Atrous可分离卷积的语义图像分割编码解码器。欧洲药典配置文件可见，2018年。[6] 弗朗索瓦 · 肖莱 Xception ： Deep Learning WithDependable Separable Convolutions.正在进行IEEE会议对比可见光帕特识别，2017年。[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. CityscapesDataset For Semantic Urban Scene Understanding.正在进行IEEE会议对比可见光帕特识别，2016年。[8] Mark Everingham，S.M. 放大图片作者：Ali Eslami，Luc Van Gool ， Christo- pher K.I. Williams ， JohnWinn ， and Andrew Zisserman.Pascal Visual ObjectClasses挑战回顾。国际计算机Vision，2014.[9] Bharath Hariharan、Pablo Arbelaez、Lubomir Bourdev、Subhransu Maji和Jitendra Malik。从反向检测器的语义轮廓。正在进行IEEE会议对比可见光帕特识别，2011年。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。正在进行IEEE会议对比可见光帕特识别，2016年。[11] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv预印本arXiv：1503.02531。[12] 黄泽浩和王乃艳。喜欢你喜欢的：通过神经元选择性转移的知识提取。 arXiv 预印本 arXiv ： 1707.01219 ，2017。[13] Jangho Kim、SeoungUK Park和Nojun Kwak。复杂网络的释义：通过因子传输进行网络压缩。在Proc.神经信息进展。过程系统，2018年。[14] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. RefineNet：用于高分辨率语义分割的多路径细化网络。正在进行IEEE会议对比可见光帕特识别，2017年。[15] Guosheng Lin，Chunhua Shen，Anton van den Hengel，and Ian Reid. 深度结构化的高效分段训练587语义分割模型。正在进行IEEE会议对比可见光帕特识别，2016年。[16] Ziwei Liu ， Xiaoxiao Li ， Ping Luo ， Chen ChangeLoy，and Xiaoou Tang.基于深度解析网络的语义图像分割正在进行IEEE国际配置文件目视，2015年。[17] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分割的全卷积网络。正在进行IEEE会议对比可见光帕特识别，2015年。[18] Roozbeh Mottaghi，Xianjie Chen，Xiaobao Liu，Nam-Gyu Cho ， Seong-Whan Lee ， Sanja Fidler ， RaquelUrtasun，and Alan Yuille.上下文在野外对象检测和语义分割中的作用。正在进行IEEE会议对比可见光帕特识别，2014年。[19] Adam Paszke 、 Abhishek Chaurasia 、 Sangpil Kim 和Euge- nio Culurciello。ENet：A Deep Neural NetworkArchitec- ture for Real-Time Semantic Segmentation .arXiv预印本arXiv：1606.02147，2016。[20] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。适合网：提示薄深网.在Proc. Int. Conf.学习.代表，2015年。[21] Mark Sandler ， Andrew Howard ， Menglong Zhu ，AndreyZh-moginov和LiangChiefChen。MobileNetV2：反向残差和线性瓶颈。在CVPR，2018年。[22] 兵帅、左震、王兵、王刚。基于Dagrecurrent神经网络的场景分割。IEEE传输模式分析马赫内特尔，2017年。[23] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。在Proc. Int. Conf.学习.代表，2015年。[24] 智天、童禾、沈春华、严友良。解码器对语义分割很重要：数据相关解码支持灵活的特征聚合。正在进行IEEE会议对比可见光帕特识别，2019年。[25] Michael Treml，Jos Arjona-Medina，et al.加速自动驾驶的语义分割。2016年。[26] 王晓龙，Ross Girshick，Abhinav Gupta，和KaimingHe.非局部神经网络。在CVPR，2018年。[27] Zifeng Wu，Chunhua Shen，and Anton van den Hengel.更宽或更深：重新审视ResNet视觉识别模型。模式识别，2016年。[28] Junho Yim ， Donggyu Joo ， Jihoon Bae ， and JunmoKim.知识升华的礼物：快速优化、网络最小化和迁移学习.正在进行IEEE会议对比可见光帕特识别，2017年。[29] Fisher Yu和Vladlen Koltun。通过扩张卷积的多尺度上下文聚合。arXiv预印本arXiv：1511.07122。[30] Sergey Zagoruyko和Nikos Komodakis注意力集中：通过注意力转移提高卷积神经网络的性能。在Proc. Int.Conf.学习.代表，2017年。[31] Zhenli Zhang ， Xiangyu Zhang ， Chao Peng ， DazhiCheng，and Jian Sun.增强语义分割的特征融合. 在procEUR. Conf. Comp. 目视，2018年。[32] Hengshuang Zhao ， Xiaojuan Qi ， Xiaoyong Shen ，Jianping Shi ， andJiaayaJia.ICNetforReal-TimeSemantic Segmenta-588高分辨率图像。欧洲药典配置文件可见，2018年。[33] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。正在进行IEEE会议对比可见光帕特识别，2017年。[34] Shuai

下载后可阅读完整内容，剩余1页未读，立即下载