没有合适的资源?快使用搜索试试~ 我知道了~
2604面向语义切分的刘一凡1陈可2刘宇2秦增昌3,4罗振波5王敬东2†1阿德莱德大学2微软亚洲研究院3北航4Keep Labs,Keep Inc.5三星中国研究院摘要在本文中,我们研究了利用大型网络训练小型语义分割网络 我们从直接的方案开始,逐像素蒸馏,其应用用于图像分类的蒸馏方案,并分别对每个像素执行知识蒸馏。我们进一步提出了从大型网络到小型网络的结构化知识提取,这是出于语义分割是一个结构化的预测问题。我们研究了两种结构化蒸馏方案:(i)提取成对相似性的成对蒸馏,以及(ii)使用GAN提取整体知识的整体蒸馏。通过在三个场景解析数据集上的大量实验,证明了我们的知识蒸馏方法的有效性:Cityscapes、Camvid和ADE20K。1. 介绍语义分割是预测输入图像中每个像素的类别标签的问题。它是计算机视觉中的一个基本任务,在自动驾驶、视频监控、虚拟现实等领域有着广泛的应用。自全卷积神经网络(FCN)发明以来,深度神经网络一直是语义分割的主要解决方案[38]。随后的方法,例如,DeepLab [5,6,7,48],PSPNet [56],OCNet[50],Re-FineNet [23]和DenseASPP [46]在分割准确性方面取得了显着的改进,通常具有繁琐的模型和昂贵的计算。近年来,由于移动设备应用的需要,神经网络以其模型小、计算量小、分割精度高等特点受到了广泛关注。目前的大多数努力都致力于设计专门用于分段的轻量级网络或借用分类网络的设计,这项工作的一部分是在Y. Liu曾在中国北京的微软研究院实习。†通讯作者。例如,在一个实施例中,[31]、ESPNet [31]、ERFNet [34]和ICNet [55]。本文的兴趣在于紧凑的分割网络,重点是训练紧凑的网络的帮助下,繁琐的网络,以提高分割精度。我们研究了知识蒸馏策略,该策略已在分类任务中验证有效[15,35],用于训练紧凑的语义分割网络。作为一个简单的方案,我们简单地将分割问题视为许多单独的像素分类问题,然后直接将知识蒸馏方案应用于像素级。这个简单的方案,我们称之为像素级分类,将从笨重的网络(教师)产生的相应像素的类概率转移到紧凑的网络(学生)。考虑到语义切分是一个结构化的预测问题,本文提出了结构化知识提取方法,并采用两两提取和整体提取两种方式传递结构信息。成对蒸馏方案的动机是广泛研究的成对马尔可夫随机场框架[22],用于实施空间标记邻接,目标是对齐从紧凑网络和繁琐网络计算的像素之间的成对相似性。整体蒸馏方案旨在对齐从紧凑分割网络和繁琐分割网络产生的分割图之间的高阶插值,高阶插值在逐像素和逐对蒸馏中我们采用对抗训练方案,鼓励从紧凑的分割网络产生的分割图的整体嵌入不与繁琐的分割网络的输出区分开来为此,我们优化了一个目标函数,该目标函数将传统的多类交叉熵损失与蒸馏项相结合本文的主要贡献可以概括如下。• 研究了训练精确紧凑语义切分网络的知识蒸馏策略。2605lationtion净Refin etRESesNet18(0.5)Cet-PNESRe不ENFCNPNET).08(1esNet1etFN儿美国PlV2nNet移动eNOC蒂利亚迪斯县我们的W/Ow/不NePSP准确度85858080757570706565605550100101FLOPs(B)102103605550十比一100101#参数(M)102103图1:Cityscapes测试集上不同网络的复杂度、参数和mIoU。 计算的FLOPs的分辨率为512×1024。红色三角形是我们的蒸馏方法的结果,而其他 的 则 没 有 蒸 馏 。 蓝 色 圆 圈 来 自 FCN* [38] , RefineNet [23] , SegNet [3] , ENet [31] , PSPNet [56] , ERFNet [34] , ESPNet [28] ,MobileNetV2Plus [25]和OCNet [50]。我们可以看到,使用我们提出的蒸馏方法,我们可以实现更高的mIoU,但没有额外的FLOP和#参数。• 我们提出了两个结构化的知识蒸馏计划,成对蒸馏和整体蒸馏,强制执行成对和高阶的紧凑和繁琐的分割网络的输出之间的一致性。• 我们通过在三个基准数据集上改进最近开发的最先进的紧凑细分网络ESPNet、MobileNetV 2- Plus和ResNet 18来证明我们方法的有效性:Cityscapes[10]、CamVid [4]和ADE 20 K [58],如图1所示。2. 相关工作语义分割深度卷积神经网络自开创性工作以来一直是语 义 分 割 的 主 要 解 决 方 案 , 全 卷 积 网 络 [38] ,DeConvNet [30],U-Net [36]。已经开发了各种方案[47]来提高网络能力,从而提高分段性能。例如,更强的骨 干 网 , 例 如 , GoogleNets [39] , ResNets [14] 和DenseNets [17]显示出更好的分割性能。通过扩张卷积[5,6,7,48]或多路径细化网络[23]提高分辨率可带来显著的利用多尺度上下文,例如,扩张卷积[48],PSPNet中的金字塔池化模块[56],DeepLab中的atrous空间金字塔池化[6],对象上下文[50]也有利于分割。Lin等人[24]将深度模型与结构化输出学习相结合,以实现语义分割。除了用于高准确率分割的繁琐网络之外,高效的分割网络也吸引了越来越多的兴趣,因为实际应用的需要,例如,移动应用程序。大多数工作都集中在轻量级网络设计上,通过因子分解技术加速卷积运算。ENet [31]受[40]的启发,集成了几个加速因子,包括多分支模块,早期特征图分辨率下采样,小解码器大小,滤波器张量因子分解等。SQ [41]采用SqueezeNet [18]火模块和并行扩张卷积层进行有效分割。ESPNet [28]提出了一个有效的空间金字塔,它基于滤波因子分解技术:逐点卷积和扩张卷积的空间金字塔,以取代标准卷积。有效的分类网络,例如,Mo-bileNet [16]、Shuf BileNet [54]和IGCNet [53]也用于加速分割。此外,ICNet(图像级联网络)[55]利用了处理低分辨率图像的效率和高分辨率图像的高推理质量,实现了效率和准确性之间的权衡。知识升华。知识蒸馏[15]是一种将知识从繁琐的模型转移到紧凑的模型以提高紧凑网络性能的它已被应用于图像分类,使用cum-bersome模型产生的类概率作为训练紧凑模型[2,15,42]或转移中间特征的地图[35,51]。还有其他应用,包括物体检测[21],行人重新识别[9]等。最近独立开发的语义分割应用[45]与我们的方法有关。它主要提取每个像素单独的类概率(像我们的逐像素提取)和每个局部补丁的标签的中心-周围差异Ow/SOetPlResNet)SegESPNR t)18(0.5eESNet-C净etENFCNetPNES(1.0个18etFN儿ineNRef美国2ETVbilenN莫CNET微颤迪斯乌尔w/PNETP准确度2606我我我我(在[ 45 ]中称为局部关系)。相比之下,我们专注于提取结构化知识:成对蒸馏,它转移了所有像素对之间的关系,而不是局部补丁中的关系[45],以及整体蒸馏,它转移了捕获高阶信息的整体知识。对抗性学习。生成对抗网络(GANs)在文本生成[43,49]和图像合成[12,20]中得到了广泛的研究。条件版本[29]成功地应用于图像到图像的翻译,包括风格转换[19],图像修复[32],图像着色[26]和文本到图像[33]。对抗学习的思想也被采用在姿态估计中[8],鼓励人类姿态估计结果不与地面实况区分开;和扫描分割[27],鼓励不将估计的分割图与地面实况图区分开。[ 27 ]中的一个挑战是发生器的连续输出和离散真实标签之间的不匹配,使得GAN中的延迟成功非常有限。与[27]不同的是,在我们的方法中,所采用的GAN没有这个问题,因为鉴别器的基础事实是教师网络的logit,其是实值的。我们使用对抗学习来鼓励从繁琐网络和紧凑网络产生的分割图之间的对齐。3. 方法图像语义分割是从C类中预测图像中每个像素的类别标签的任务。分割网络以尺寸为W ×H × 3的RGB图像I作为输入,然后计算尺寸为W ′× H′× N的特征图F,其中N是通道数。最后,应用分类器从F计算大小为W′×H′×C的分割图Q,将其上采样为输入图像的空间大小W×H作为分割结果。3.1. 结构化知识蒸馏我们应用知识蒸馏[15]策略,输入图像图2:我们的蒸馏框架。(a)成对蒸馏。(b)像元蒸馏。(c)整体蒸馏。在训练过程中,我们将繁琐的网络固定为我们的教师网络,只有学生网络和学生网络将被优化。具有紧凑架构的学生网络将使用三个蒸馏项和一个交叉熵项进行训练我们采用了一种明显的方法[15]:使用繁琐模型产生的类概率作为训练紧凑网络的软目标。损失函数如下所示,将繁琐的分割网络T的知识转移到紧凑的分割网络S,以便更好地训练紧凑的分割网络。除了一S=1πW′×H′ΣKL(qsqt),(1)i∈R针对结构化知识从复杂网络向紧凑网络的转移,提出了两种结构化知识的提取方案:成对提取和整体提取管道如图2所示。逐像素蒸馏。我们将分割问题看作是一系列独立的像素标记问题的集合,并直接使用知识蒸馏来对齐从紧凑网络产生的每个像素其中qs表示从紧凑网络S产生的第i个像素的类概率,qt表示从混合网络T产生的第i个像素的类概率,KL(·)是两个概率之间的Kullback-Leibler散度,并且R ={1,2,.,W′×H′}表示所有像素。成对蒸馏。受广泛用于改善空间标记邻接性的成对马尔可夫随机场框架的启发,我们建议将(实嵌入假嵌入鉴别器网((蒸馏损失分割损失相似性图教师网学生网辨别损失像素标记成对损失像素标记逐像素损失交叉熵损失整体损失瓦瑟斯坦损失条件特征图Score map2607IJ一IJ我何S不最大值IJ像素之间的成对关系,特别是我们方法中的成对相似性令at表示第i个像素与结构化蒸馏术语1λ(S,D)=λmc(S)+λ1(λpi(S)+λpa(S))从繁琐的网络T和−λ2ho(S,D)产生的第j个像素,(4)s表示从紧凑网络S产生的第i个像素和第j个像素之间的相似性。 我们采用平方差来表示成对相似蒸馏损失,其中λ1和λ2分别设为10和0。1,使这些损失值范围具有可比性。我们最小化的目标函数的参数的紧凑段,站网络S,而最大化它相对于帕,拉尼帕(S)=1(W′×H′)2Σ Σ SIJi∈Rj ∈R-at)2.(二)参数,通过迭代以下两个步骤实现:在我们的实现中,两个像素之间的相似性简单地从特征fi和fj计算为:aij=f<$fj/(fi<$2<$fj<$2),这在经验上工作良好。整体蒸馏。我们对齐的高阶关系之间的分割图产生的cumber-some和紧凑的网络。分割图的整体嵌入被计算为表示。• 训练你的机器人。训练最小值等价于最小化最小值(S,D)。D的目标是为来自教师网和低嵌入分数的假样本从学生网。• 训练紧凑分段网络S。在给定网络的情况下,目标是最小化与紧凑分割网络相关的多类交叉熵损失和蒸馏损失:我们采用条件生成对抗学习[29]来制定整体蒸馏问题。紧网被看作是一个生成元,条件是mc(S)+λ1(哪里(S),输入RGB图像I和预测分割图sQs被认为是假样本。我们期望Qs与Qt尽可能相似,Qt 是 教 师 预 测 的 分 割 图 , 并 被 视 为 真 实 样 本Wasserstein距离[13]用于评估真实分布和伪分布之间的差异,其被写为如下:ho(S,D)= EQs|I)]-EQtp(Qt)[D(Qt|(一)]、(3)其中E[·]是期望算子,D(·)是一个嵌入网络,充当GAN中的递归,它将Q和I一起投影到整体嵌入得分中。Lipschitz要求通过梯度惩罚来满足将分割图和条件RGB图像级联作为嵌入网络的输入D. D是一个具有五个卷积的全卷积神经网络。 两个自我注意模块被插入到-在最后三层之间捕获结构信息[52,57]。这样的鉴别器能够产生表示输入图像和分割图匹配得有多好的整体嵌入。3.2. 优化整个目标函数由传统的多类交叉熵损失矩阵(S)组成,ho(S)= EQs|I)]是等式3中给出的S,D的一部分,并且我们期望S在D的评估下获得更高的分数。4. 实现细节网络结构。我们采用最先进的分段架构PSPNet [56]和ResNet101 [14]作为笨重的网络(教师)T。我们研究了最近的公共紧凑网络,并采用几种不同的架构来验证蒸馏框架的有效性。我们首先将ResNet 18视为基本的学生网络,并对其进行消融研究。然后,我们采用开源的MobileNetV 2 Plus [25],它基于ImageNet数据集上的预训练MobileNetV 2 [37]模型。我们还测试了ESPNet-C [28]和ESPNet [28]的结构,它们非常紧凑,复杂度低。培训设置。本文中的大多数分割网络都是通过小批量随机梯度下降(SGD)进行训练的,其动量为(0。9)和权重衰减(0. 0005)进行40000次迭代。学习率初始化为0。01和nd乘以(1-iter)0。9 .第九条。我们随机切割1目标函数是小批量训练样本上损失的总和。为了描述清楚,我们忽略求和运算。(a)2608将图像转换为512×512作为训练输入。在训练期间应用正常数据增强方法,例如随机缩放(从0. 五比二1)和随机随机抽取。除此之外,我们遵循相应出版物[28]中的设置来重现ES-PNet和ESPNet-C的结果,并在我们的蒸馏框架下训练紧凑网络。5. 实验5.1. 数据集城市景观。Cityscapes数据集[10]是为城市场景理解而收集的,包含30个类,其中只有19个类用于评估。该数据集包含5,000张高质量像素级精细注释图像和20,000张粗略注释图像。经过精细注释的5,000张图像分为2,975/500/1,525张图像,用于训练、验证和测试。我们在实验中只使用精细注释的摄像头CamVid数据集[4]是一个汽车数据集。它包含367张训练图像和233张测试图像。 我们评估了11个不同类别的性能,如建筑物,树木,天空,汽车,道路等。并忽略包含未标记数据的第12类。ADE20K。ADE20 K数据集[58]用于ImageNet场景解析挑战2016。它包含150个类和不同的场景。将数据集分为20K/2K/3K图像进行训练、验证和测试。5.2. 评估指标我们使用以下指标评估分割准确性以及模型大小和效率。Intersection over Union(IoU)得分计算为每个类别的地面真值掩码和预测分割掩码之间的间隔和并集的比率。我们使用所有类别的平均IoU(mIoU)来研究蒸馏效率。我们还报告了类IoU,以研究蒸馏对不同类的影响像素精度是具有正确语义标签的像素与整体像素的比率。模型大小由网络参数的数量表示。而复杂度是通过在固定输入大小上的一个前向中的浮点运算(FLOP)的总和来评估的5.3. 消融研究蒸馏的有效性。我们研究启用和禁用蒸馏系统不同组件的效果。实验在ResNet 18及其变体ResNet 18(0.5)在Cityscapes数据集上表示ResNet18在表1中,学生网络的不同设置的结果是三次运行的平均结果。表1:拟议方法中损失的不同组成部分的影响。PI =逐像素蒸馏,PA=逐对蒸馏,HO =整体蒸馏,ImN =来自ImageNet上的预训练权重的初始值。方法验证mIoU(%)培训mIoU(%)老师78 56.86 09.ResNet 18(0. 第五章)+ Pi+ PI+ PA+ PI+ PA+ HO55. 37± 0。25五十七07± 0.6961岁03± 0. 496163 ± 0. 99.6067 ± 0。37.6233 ± 0. 66.6573 ± 0. 38.66岁。13± 0。70ResNet 18(1. 0个)+ Pi+ PI+ PA+ PI+ PA+ HO+ ImN+ PI+ ImN+ PI+ PA+ ImN+ PI+ PA+ HO+ ImN五十七50± 0。49五十八63± 0。3162. 48± 0。236324 ± 0. 74.69岁。10± 0。21七十51± 0。37七十一37± 0。127267 ± 0. 57.6298 ± 0. 45.6432 ± 0. 32.6877 ± 0. 37.69岁。93± 0。867412 ± 0. 19.7510 ± 0. 37.7642 ± 0. 20.78岁03± 0. 51从表1中可以看出,提取可以提高学生网络的性能,提取结构信息有助于学生更好地学习。使用这三个蒸馏项,ResNet 18(0. 5),ResNet 18(1. 0)和ResNet 18(1. 0),从ImageNet数据集预训练的权重为6。26%,5. 74%,2。9%,这表明蒸馏的效果对于较小的学生网络和没有初始化的网络更明显,权重从ImageNet 预 训 练 。 这 样 的 初 始 化 也 是 从 其 他 来 源(ImageNet)转移知识的一种方式。ResNet 18整体蒸馏的最佳mIoU(0. (5)达到62。7%的验证集。另一方面,可以看到每个蒸馏方案导致更高的mIoU分数。这意味着三种蒸馏方案为更好地训练紧凑型网络做出了互补的贡献。此外,我们说明了GAN能够提取整体知识。对于每个图像,我们提供三个分割图,由教师网络输出,学生网络w/o将学生网和教师网的嵌入分数进行了比较。图3a显示了嵌入分数的差异,整体蒸馏,从学生网可以达到与教师相似的分数,表明GAN有助于提取整体结构知识。图3b、图3c和图3d是分割图及其对应的计算随机选择的图像的嵌入分数。训练良好的D可以为高质量的分割图分配更高的分数,而具有整体蒸馏的学生网可以生成具有更高分数的分割图和更好的质量。识别器中的自我注意模块有助于捕获结构信息并有利于整体蒸馏。 使用两个2609自我关注模块的比例约为1%,从71. 6%至72。百分之六十七对于ResNet 18(1. 0)。(a) (b)教师评分:7.78(c)无HO评分:7.17(d)伴HO评分:7.75图3:GAN能够以ResNet18(1.0)为例提取整体结构的示例学生网。(a)显示了教师和学生在有和没有对抗性整体蒸馏的100个样本之间的得分差异(b)、(c)和(d)呈现随机选择的样本的分割图和嵌入分数。特征和局部成对蒸馏。我们比较成对蒸馏的变体:• MIMIC [35,21]的功能蒸馏:我们遵循[21]通过1×1卷积层对齐T和S之间每个像素的特征,以匹配特征• 通过注意力转移进行特征蒸馏[51]:我们将反应图聚合成所谓的注意力图(单通道),然后将注意力图从教师转移到学生。• 局部成对蒸馏[45]:我们提取一个局部相似度图,它表示每个像素与8个邻域像素之间的相似度。我们用上述三种蒸馏方案代替我们的成对蒸馏,以验证我们的全局成对蒸馏的有效性从表2中,我们可以看出,我们的成对蒸馏方法优于所有其他蒸馏方法。与特征提取方案相比的优势:MIMIC [21]和注意力转移[51],分别转移每个像素的知识,来自于我们转移结构化知识,而不是对齐每个像素的特征。与局部两两蒸馏法相比,其优越性表明了该方法的有效性表2:特征转移MIMIC [35,21],注意力转移[51]和局部成对蒸馏[45]与我们的全局成对蒸馏的经验比较。通过mIoU(%)评价分割。PI:逐像素蒸馏。MIMIC:使用1×1卷积进行特征提取。AT:注意力转移的特征蒸馏。局部相似蒸馏法(PA:我们的成对蒸馏。ImN:从ImageNet数据集上预训练的权重初始化网络。方法ResNet 18(0.第五章)ResNet 18(1. 0)+ImN无水蒸馏55 37.57 07.58 44.57 93.58 62.61 03.69岁。10七十51七十一03七十70七十86七十一37+ Pi+ PI + MIMIC+ PI+ AT+ PI + PI+ PI+ PA表3:测试、确认(Val.)培训(Tra.)城市景观的集合方法#参数(M) FLOPs(B) 试验§确认Tra当前最新成果ENet [31]†0的情况。3580二、067134 5.118 1.62 58.70 43.3 .第三章。612二十五60三百三十三9525. 7548 5574 9五十八368岁0六十五3七十三。6八十178岁4n/an/an/an/an/an/an/an/an/an/an/an/aERFNet [48]FCN [38]RefineNet [23]OCNet [50]PSPNet [56]结果w/和w/o蒸馏方案[45]第四十五话[45]第45话14 35.14 35.64 48.六十四48n/an/a67 3.71 9.n/an/aESPNet-C [28]†ESPNet-C(我们的)†0的情况。34920的情况。34923 .第三章。4683 .第三章。46851岁1五十七6五十三3五十九9六十五9七十0ESPNet [28]†ESPNet(我们的)†0的情况。36350的情况。36354.第一章4224.第一章422六十岁。362. 061岁463岁8n/a七十三。8ResNet 18(0. (5)†ResNet 18(0. 5)(我们的)†3 .第三章。8353 .第三章。835三十三岁。35三十三岁。35五十四1六十岁。555 4.61 6.六十岁。766岁。1ResNet 18(1. 0)†ResNet 18(1. 0)(我们的)†15 24.15 24.128. 2128. 2五十六062. 157 5.63 2.63岁069岁。92610ResNet18(1.0)下载ResNet18(1.0)(我们的)15 24.15 24.128. 2128. 267岁6七十一469 1.72 7.74岁1七十七。4[25]第二十五话MobileNetV2 Plus(我们的)8. 3018. 30186岁。1486岁。1468岁974岁070 1.74 5.n/a83岁1†从头开始训练从ImageNet§我们在单一规模上测试所有模型一些繁琐的网络在多个尺度上进行测试,如OCNet和PSPNet。我们的全局成对蒸馏,它能够传递除局部边界信息之外的整个结构信息[45]。5.4. 结果城市景观。我们将我们的结构蒸馏方法应用于几个紧凑网络:MobileNetV 2 Plus [25]基于MobileNetV 2模型,ESPNet-C [28]和ES-PNet [28]为移动应用精心设计。表3显示了分割精度、2611908070605040图4:在MobileNetV2Plus网络上,以类IoU分数表示的逐像素和结构化蒸馏方案的有效性说明[25] 城市风景测试集的最佳结果 像素级和结构化蒸馏都有助于提高性能,特别是对于具有低IOU分数。结构化蒸馏的改进对于结构化物体(如公共汽车和卡车)更有意义(a) 图像(b)W/O蒸馏(c)逐像素蒸馏(d)我们的方法(e)地面实况图5:MobileNetV2Plus生成的Cityscapes测试集的定性结果:(a)初始图像,(b)无蒸馏,(c)仅无像素蒸馏,(d)我们的蒸馏方案:像素式和结构化蒸馏方案。红框中的分割图是关于四个结构化对象的:行李箱、人、公共汽车和交通标志被放大。可以看出,结构化蒸馏方法(我们的)产生更一致的标签。模型复杂度和模型大小。在512×1024分辨率下计算了GLOPs2,以评估其复杂性。#parameters是网络参数的数量。我们可以看到,我们的蒸馏方法可以改进5个紧凑网络的结果:ESPNet-C和ESPNet [28],ResNet 18( 0. 5 ) , ResNet 18 ( 1. 0 ) 和 Mo-bileNetV 2 Plus[25]。对于没有预先训练的网络,例如ResNet 18(0.5),ResNet 18(1. 0)和ESPNet-C,改进非常显著,6. 2%,5. 74%,6。6%,分别。与MD(增强型)[45] 在MobileNet上使用逐像素和局部逐对蒸馏方案,我们使用类似网络MobileNetV2Plus的方法实现了更高的分割质量(74. 五比七十一。9),计算复杂度略高,模型大小小得多。图4显示了每个类在Mo上的IoU得分2FLOP是使用pytorch版本实现计算的[1]bileNetV2Plus。无论是像素明智的和结构化的替代方案提高性能,特别是对于低IoU分数的类别。特别地,结构化蒸馏(成对和整体)对于结构化对象具有显著的改进,例如,十七岁公交车提高了23%,03%的卡车。图5中的定性分割结果直观地展示了我们对结构化对象(如卡车、公共汽车、人和交通标志)的结构化提取的有效性。摄像头表4显示了学生网络w/o和w/ our蒸馏方案的性能以及最先进的结果。我们在ENet设置后,以480×360的分辨率训练和评估学生网络w/和w/o蒸馏。我们可以再次看到,蒸馏方案提高了性能。图6显示了CamVid测试装置上的一些样品,不含ESPNet产生的蒸馏物。我们还进行了一个实验,通过使用额外的unla-W/O蒸馏像素蒸馏我们的方法准确度(mIoU %)2612表4:CamVid测试集上的分割性能。ImN = ImageNet数据集,unl =从Cityscapes采样的未标记街道场景数据集。0.750.70.650.60.550.5ESPNet ESPNet(Unlabel)ESPNet - C ESPNet - C(Unlabel)图7:结构化蒸馏对CamVid的影响。我们可以看到,蒸馏可以在两种情况下改善结果:仅在标记数据上以及在标记数据和额外的未标记数据上训练。表5:ADE20 K验证集的mIoU和像素精度方法mIoU(%)像素Acc.(%)参数数(M)SegNet [3]21 64.34 28.42 19.29 39.71 00.76 35.80 59.71 32.29 46.62 74.70 43.134 5.[44]第四十四话PSPNet(教师)[56]简体中文[CN][第28话]20 13.23 91.70 54.73 94.0的情况。36350的情况。3635ESPNet(我们的)[25]第二十五话33 64.35 51.74 38.76 20.8. 3018. 301MobileNetV2 Plus(我们的)ResNet18 [44]33 82.36 55.76 05.77 77.15 24.15 24.ResNet18(我们的)(a) 图片(b)不含dis.(c)我们的方法(d)地面实况图6:从ESP-Net产生的CamVid测试集上的定性结果。W/o dis.表示未经蒸馏训练的基线学生网络。beled数据集,其中包含从Cityscapes数据集收集的2000个未标记的街景图像,以表明蒸馏方案可以传递未标记图像的知识。实验用ESPNet和ESPNet-C完成。损失函数几乎是相同的,除了在未标记的数据集上没有交叉熵损失。结果如图7所示。我们可以看到,我们使用额外未标记数据的蒸馏方法可以显着提高ESPNet-c和ESPNet的mIoU。5%和12。百分之六。ADE20K。ADE20 K数据集是一个非常具有挑战性的数据集,包含150个对象。物体在场景中出现的频率和不同物体的像素比例遵循长尾分布。例如,像墙,建筑物,地板和天空这样的东西类占据了所有注释像素的40%以上,而离散对象,如分布尾部的花瓶和微波炉,只占0。03%的注释像素。我们在表5中报告了ResNet 18和MobileNetV 2 Plus的结果,它们是用ImageNet数据集上预训练的初始权重训练的,而ESPNet是从头开始训练的。所有结果均在单一尺度上进行检验。对于ESPNet,通过我们的蒸馏,我们可以看到mIoU得分提高了3。78%,与SegNet相比,它在更小的#参数下实现了更高的准确性。对于ResNet 18,在蒸馏之后,我们有2。与[ 44 ]中报道的没有蒸馏的相比,改进了73%。我们检查了每个类的结果,发现改进主要来自离散对象。6. 结论本文研究了利用冗余网络训练紧凑语义切分网络的知识提取方法.除了像素级知识蒸馏之外,我们还提出了两种结构蒸馏方案:成对蒸馏和整体蒸馏。我们在三个基准数据集上对最近开发的几个紧凑网络证明了我们提出的蒸馏方案的有效性W/O蒸馏器+ 像素级蒸馏我们的方法准确度方法额外数据mIoU(%)参数数(M)ENet[31][11]第十三届中国国际航空航天博览会DeepLab-LFOV[5]FCN-8s[38]不不ImNImNIMN51 3.58 9.55 6.61 6.57 0.0 3580.1 .一、55029岁46三十七32134 5[第28话]ESPNet-C(我们)ESPNet-C(我们)没有不,除非56 7.60 3.六十四10 3492.[第28话]ESPNet不不57 8.61 4.0 3635.2613引用[1] https://github.com/warmspringwinds/pytorch-segmentation-detection/blob/master/pytorch_segmentation_detection/utils/flops_benchmark.py,2018。[2] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗? 在proc神经信息学进展过程系统第2654-2662页[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。IEEE传输模式分析马赫内特尔,(12):2481[4] Gabriel J Brostow,Jamie Shotton,Julien Fauqueur,andRoberto Cipolla.利用运动点云的结构进行分割和识别。欧洲药典配置文件可见,第44-57页。Springer,2008.[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan Yuille.使用深度卷积网络和全连接crf的语义图像在Proc. Int. Conf.学习.代表,2015年。[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE传输模式分析马赫内特尔,40(4):834[7] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Flo- rian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。Proc. Eur.配置文件可见,2018年。[8] Yu Chen , Chunhua Shen , Xiu-Shen Wei , LingqiaoLiu,and Jian Yang.对抗性PoseNet:一种用于人体姿态估计的结构感知卷积网络。正在进行IEEE国际配置文件目视第1212-1221页[9] Yuntao Chen , Naiyan Wang , and Zhaoxiang Zhang.Dark- rank:通过交叉样本相似性转移加速深度度量学习。Proc. Eur.配置文件可见,2018年。[10] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。正在进行IEEE会议对比可见光帕特识别,2016年。[11] 米哈尔·德罗兹扎尔、大卫·瓦兹奎兹和阿德里安娜·罗梅罗。百层提拉米苏:用于语义分割的全卷积密集网。IEEE Conf.对比可见光帕特识别,2017年。[12] Ian J Goodfellow , Jean Pougetabadie , Mehdi Mirza ,Bing Xu , David Wardefarley , Sherjil Ozair , AaronCourville , Yoonge Bengio , Zoubin Ghahramani , andMax Welling.生成性对抗网。神经信息进展。过程系统,3:2672[13] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在Proc.神经信息进展。过程系统,第5767-5777页[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。Proc. IEEE Conf.对比可见光帕特识别,第770-778页[15] 杰弗里·E Hinton,Oriol Vinyals,and Jeffrey Dean.在神经网络中提取知识。CoRR,abs/1503.02531,2015。[16] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视 觉 应 用 的 高 效 卷 积 神 经 网 络 arXiv : 比 较 Res.Repository,abs/1704.04861,2017.[17] 高煌,刘庄,劳伦斯·范德马腾,和Kilian Q.温伯格密集连接的卷积网络。CVPR,第2261-2269页[18] 福雷斯特N.作者:Matthew W.放大图片作者:William J.达利和库尔特·库泽。Squeezenet:Alexnet级别的精度,参数减少50倍,<1MB 型 号 大 小 。 arXiv : 比 较 Res. Repository ,abs/1602.07360,2016。[19] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失Proc.Eur.配置文件可见,第694-711页[20] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。 Proc. Int. Conf. 学习. 代表,2018年。[21] Quanquan Li,Shengying Jin,and Junjie Yan.模仿非常有效的网络进行对象检测。Proc. IEEE Conf. Comp. Vis.帕特识别,第7341-7349页[22] 斯坦·李。图像分析中的马尔可夫随机场模型。SpringerScience Business Media,2009.[23] Guosheng Lin,Anton Milan,Chunhua Shen,and Ian D.里德Refinenet:用于高分辨率语义分割的多路径细化网络。正在进行IEEE会议对比可见光帕特识别,第5168-5177页[24] Guosheng Lin,Chunhua Shen,Anton van den Hengel,and Ian Reid.使用深层结构化模型探索上下文以进行语义分割。IEEE传输模式分析马赫内特尔,2017年。[25] 刘慧君。Lightnet:用于语义图像分割的轻量级网络。https://github.com/ansleliu/LightNet ,2018年。[26] 刘一凡,秦增昌,万涛,罗振波自动画家:使用con-wasserstei
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功