类间距离特征空间传递：语义切分中的知识蒸馏

4 浏览量更新于2023-11-05 收藏 606KB PDF 举报

输入图像

特征空间

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文学生网络输出大类间距离特征空间小类间距离特征空间教师网络类令牌距离输入图像提取类间距离进行语义切分张正波1，周春鸾2，涂志刚11武汉大学2Wormpex AI研究{zhangzb，tuzhigang} @ whu.edu.cn，CZHOU002@e.ntu.edu.sg摘要在语义切分中，知识蒸馏被广泛采用，以往的语义分割知识提取方法主要集中在像素级特征对齐和类内特征变异的提取上，忽略了对语义分割至关重要的类间距离知识在特征空间中的传递。为了解决这个问题，我们提出了一个类间距离分布（IDD）的方法来转移的类间距离的特征空间从教师网络的工作到学生网络。此外，语义分割是一个位置相关的任务，因此我们开发了一个位置信息蒸馏模块，以帮助学生网络编码更多的位置信息。在Cityscapes 、Pascal VOC和ADE 20K三个流行数据集上的实验表明，该方法有助于提高语义分割模型的准确率，达到了最先进的性能。例如，它将基准模型（“PSPNet+ ResNet 18”）的准确性提高城市景观数据集。1介绍语义分割的目的是为输入图像的每个像素分配一个标签。它是计算机视觉中一个基础性的、具有挑战性的课题，在许多领域有着广泛的应用例如自动驾驶[Donget al. ，2020]，地面特征变化检测[Kemkeret al. ，2018]等。最近，由于深度学习的成功[Tuet al. 在计算机视觉中，基于卷积神经网络（CNN）的方法大大提高了语义分割的准确性。然而，基于CNN的语义分割算法通常具有昂贵的计算成本，这限制了其在实际中的应用，特别是对于要求高效率的实际任务。为了解决这个问题，已经探索了许多轻量级模型，例如 ENet [Paszkeet al. ， 2016] ， ESPNet [Mehtaet al. ，2018]，ICNet [Zhaoet al. ，2018]和STDC [Fanet通讯作者：涂输出模仿图一：受网络结构简单、参数少的限制，学生网络在特征空间中不能像教师网络那样具有较大的类间距离。我们的动机是转移教师网络的类间距离，以帮助学生网络提高分割精度。al. ，2021]。虽然研究人员已经设计了优秀的网络来降低计算成本，但很难在精度和模型大小之间达到令人满意的折衷。我们采用知识蒸馏（KD）策略，在教师网络的指导下训练学生网络，而不是重新设计骨干网络，并获得了可比的结果。KD [Hintonet al. ，2015]，作为模型压缩方法，该方法最初用于图像分类任务，能够显著简化繁琐的模型。由于KD的优势，一些语义分割方法使用KD来减小模型大小[Liuet al. ，2019;Wanget al. ，2020;Shuet al. ，2021]。它们迫使学生模型从教师网络中学习逐像素特征和类内代表性，类内特征方差蒸馏（ IFVD ）[Wangetal. ，2020]集中于将类内特征的变化从教师网络转移到学生网络。智慧知识蒸馏（CD）[Shuet al. ，2021]强调提取每个通道中最重要的区域。值得注意的是，语义分割是具有各种类别的逐像素类别预测任务，因此特征空间中的类间距离在arXiv：2205.03650v1 [cs.CV] 2022年5月+v：mala2277获取更多论文L（D（GT），D（F））=−D（GT）·log（D（F））。塔尔克语义分割由于教师网络的参数众多，网络结构复杂，在特征空间具有较强的分类能力和较大的类间距离然而，问题1：过去用于语义分割的KD方案忽略了将教师网络的特征空间中的类间距离转移到学生网络。此外，CNN能够隐式地编码位置信息[Islamet al. ，2020]。语义分割是一个依赖于位置的任务。一般情况下，网络结构简单，参数少，问题2：学生网络无法像教师网络那样编码丰富的位置信息。为了解决上述问题，我们考虑提取特征空间中的类间距离和从教师网络到学生网络的位置信息。因此，我们提出了一种称为类间距离蒸馏（IDD）的新方法（见图1）。它由两个主要部分组成。一个是类间距离提取模块（IDM），我们设计了一个图对类间距离进行编码，使学生网络模拟教师网络的大类间距离。二是位置信息提取模块（PIDM）。我们设计了一个位置信息网络来提取隐含编码在特征图中的位置信息。教师网络和学生网络都将通过该网络预测绝对坐标掩模。通过最小化它们的分歧，学生网络可以编码更多的位置信息。使用我们的IDD方法，学生网络学习更多关于类间距离和位置信息的知识，显著提高了学生网络的分割精度。这些贡献可归纳为三个方面：• 我们提出了一种新的方法命名为类间距离蒸馏（IDD）的语义分割。这是第一个方法，提取类间距离之间的所有KD方案的语义分割，以我们所知的。• 我们设计了一个位置信息提取模块（PIDM），以提高学生网络编码位置信息的能力• 我们在三个著名的基准数据集上证明了IDD方法的有效性，它不仅获得了KD方案中最先进的语义分割精度，而且对其他语义分割模型也是有用的。2相关工作语义分割基于CNN的模型极大地促进了语义分割的进步。许多研究者尝试了不同的方法使模型能够学习丰富的上下文信息. [Zhaoet al. ，2017]提出了一种金字塔池策略，以从多个尺度收集上下文信息。DeepLabv2[Chenet al. ，2017年a]多层次特征和上下文信息。 OCNet [Yuanet al. ，2018]利用自我注意机制来捕获所有像素之间的关系。为了满足移动平台的实时语义分割需求，提出了一些轻量级的网络。ENet [Paszkeet al. 2016]使用了非对称编码器-解码器结构和卷积核分解操作，这大大减少了参数和浮点操作的数量。在ESPNet中应用了逐点卷积和扩张卷积的空间金字塔[Mehtaet al. 2018年]，以降低计算成本。ICNet [Zhaoet al. ，2018]通过设计高效的网络结构来处理不同分辨率的图像，实现了快速语义分割。BiSeNet [Yuetal. ，2018]提出了一种有效的下采样方法和特征融合模块，以提高推理速度。[Fanet al. ，2021]通过减少网络冗余设计了一种新的实时分段架构。不同于[Mehtaet al. ，2018; Zhaoet al. ，2018]，利用KD得到了轻量级的语义分割网络，避免了重新设计网络结构，提高了效率。KD用于语义分割。[Hintonet al. KD是将软标签从教师网络转移到学生网络以提高学生网络性能的过程。由于KD算法的显著性能，一些研究者将其应用于语义分割。[Liuet al. ，2019]使用结构化KD方法从教师网络传输像素、成对和整体知识。[Heet al. ，2019年]设计了一个自动编码器，将知识转换为紧凑的形式，更容易让学生网络学习。[Wangetal. ，2020]提出了一种类内特征变化蒸馏方案，使学生网络模拟教师网络的类内特征分布。 [Shuetal. ，2021]开发了一种简单而有效的方法来最小化教师网络和学生网络之间的信道差异。与这些方法不同的是，我们的方法注重提取特征空间中的类间距离，这与之前的逐像素特征对齐和类内特征变化的提取是互补的。3该方法在这一节中，我们首先概述了过去用于语义分割的KD方法的一般框架和我们的IDD模型，然后我们详细描述了IDM和PIDM。3.1概述语义分割是一个密集的预测任务，旨在为每个像素分配一个标签。虽然以前的基于KD的语义分割方法取得了很好的进展，他们主要集中在对齐像素级特征和类内特征方差。它们的损失函数一般可以表示为：损失=Ltar（D（GT），D（FS））+λ·Ldis（λ（FT），λ（FS）），和Deeplabv3 [Chenet al. ，2017 b]采用了Atrous空间金字塔池化方法来获得丰富的上下文信息。设计了一个编码器-解码器模块，NS SKk=1（一）+v：mala2277获取更多论文输入蒸馏转移类令牌距离垂直水平教师网络位置信息类间距离·i、ji、j{V E}V{|}G∈∈∈JJ我∈我ID来控制体重损失。Ldis（）是损失函数，例如均方误差损失。显然，现有的方法ig-2i、ji、j输入学生网络输出图2：我们用于语义分割的IDD方法的网络。我们设计了一个图来编码教师网络中的类间距离，并将类间距离传输到学生网络。此外，我们将教师网络中隐式编码的丰富位置信息传输到学生网络。Ltar是交叉熵损失，GT是地面实况，FS和FT分别表示学生网络和教师网络的特征图。（）表示一个映射函数。D（GT）和D（FS）分别表示所有像素的地面真值和学生网络N是像素的数量，D（GTk）表示第k个像素其中，D（FS）是第k个像素它表示第i类和第j类之间的特征距离，Dis是欧几里得距离。由于网络深度大、参数多，教师网络类间距离大。受此特性的启发，为了使学生网络能够在类间距离方面更好地模拟教师网络，我们设计了类间距离损失函数Lid，其定义为：kN N由学生网络制作λ是一个超参数·L= 1mm。eT−eS2，i/=j，（3）i=1j=1更重要的是将教师网络中的班级间距离转移到学生网络。如图2所示，我们其中eT而eS代表ei、j教师网络提出了IDD方法，将教师的类间距离和位置信息传递给学生。我们将在以下小节中详细介绍每个模块。3.2级间远距离蒸馏模块语义分割是一个逐像素的分类任务。受网络结构简单、参数少的限制，学生网络的判别能力较差，类间距离较小。我们提出了类间距离蒸馏模块来应对这一挑战。如图2所示，我们构造一个图=，以编码类间类别距离，其中=vii = 1，. N是一组节点，N表示到-处理后图像的分割类别总数和学生网络。3.3位置信息提取模块语义分割是一个依赖于位置的任务。这是在[伊斯兰等报道。，2020] CNN具有编码位置信息的能力。伊斯兰教（Islamet al.），2020]，我们进一步引入位置信息提取模块来增强学生网络预测位置信息的能力。因此，学生网络可以在其输出特征中编码更多的位置信息，这些信息可以用于提高分割精度。具体来说，我们使用ARC× H × W代表了...放特征图。首先，我们将A输入到预先训练好的位置信息网络中，以获得位置信息掩码所以E={E i、j| i = 1, ... N;j=1，. N;i=j}表示PHORRH× W和PVERRH× W，它们分别代表横坐标和纵坐标。在PHOR中，每列一组边。 vi表示第i类的令牌，vi是通过对具有相同特征具有相同的值，我们使用VHOR（j∈[1，H]）torep-类别标签i. ei、j是两个点重新发送列j的值，其中VHOR=j。在PVER中，第i和第j类别的类令牌，其被定义为：ei，j= Dis（vi，vj）.（二）每行都有相同的值，我们使用VVER（i[1，W]）以表示行i的值，其中VVER= i。我们构造了一个损失函数Lpi来将教师网络的位置信息传递给学生网络，+v：mala2277获取更多论文HQQ我QiJJ我QHORT¨QHORS¨¨¨骨架LskdLcwLidLpimIoU（%）T：ResNet10178.56S：ResNet18 70.09S：ResNet18C 73.03S：ResNet18C C 75.78S：ResNet18C C C 76.81S：ResNet18C C C 76.43S：ResNet18C C C C 77.59表1：Cityscapes验证数据集上损失项目的消融研究：L skd、Lcw、L id和Lpi。“T：ResNet101”和“S：“Backbone”一栏中的“ResNet18”表示我们分别选择ResNet101和ResNet18withPSPNet作为教师网络和学生网络的主干。表示为：方法mIoU（%）参数（M）FLOP（G）eNet58.30.3583.612ESPNet60.30.3644.422ERFNet68.02.06725.60ICNet69.526.5028.30FCN62.7134.5333.9RefineNet73.6118.1525.7OCNet80.162.58548.5T：PSPNet-R10178.470.43574.9产品编号：PSPNet-R1867.6013.07125.8S：+Ours（IDD）76.3313.07125.8表2：Cityscapes测试集上不同轻量级语义分割模型的性能比较。4.1数据集和评估1HOR1V ER数据集。城市景观包括5000精细注释IM-哪里Lpi=2·Lpi+2·Lpi，（4）不同城市的驾驶场景。它包括2975，500和1525图像用于训练、验证和测试、重新排序。它被标记为19个语义类别。的QHOR TJPij=1JHOR S¨J2J2每幅图像的分辨率为2048×1024。在我们的实验中，、（五）Pascal VOC由1464张用于训练的图像组成，1449LHOR=W¨−¨ ¨¨我们不使用粗略标记的图像。V ERV ER T我HOR S我用于验证的图像和用于测试的1456个图像。它涵盖20个前景对象类和1个背景类。Lπ=i=1 QV ER T-HOR S2¨2ADE20k是一个具有挑战性的场景解析数据集，由MIT，包含20K，2K，3K图像，150个类在水平和垂直方向上表示Lπ，- 是的QVERT和QVERS表示用于培训、验证和测试。评价指标。我们使用Intersection-over由教师网和学生网制作的PVER每个类的平均IoU（mIoU）和所有类的平均IoU（mIoU），2Q2+v：mala2277获取更多论文.学习率的计算公式为lr·1−。×工作在矢量化的形式。类似地，QHORT和QHORS表示P的第i何珥我由教师测量分割精度。利用模型参数（Params）的总数+v：mala2277获取更多论文网络和矢量化形式的学生网络。3.4损失函数+v：mala2277获取更多论文[10] Shuet al. ，2021]，我们还应用通道方式监督Lcw，以最小化教师网络与学生网络之间的信道方向概率图的我们的IDD方法的最终损失函数被公式化为：L=Lskd+λ1·Lcw+λ2·Lid+λ3·Lpi，（6）其中 Lskd是语义分割的结构化KD损失[Liuet al. ，2019]，λ1、λ2和λ3是用于平衡不同项目之间的权重的超参数。4实验为了验证我们提出的基于IDD的语义分割方法的有效性，我们对三个流行的基准进行了全面的实验：Cityscapes[Cordtsetal.， 2016] ， PascalVOC[Everinghamet al. ， 2015] 和 ADE20K [Zhouet al. ，2017]。在接下来的小节中，我们首先介绍数据集、评估指标和实现细节。接下来，我们在Cityscapes数据集上进行消融实验。最后，我们将我们的模型与Cityscapes、Pascal VOC和ADE 20K上最先进的轻量级模型进行了比较。来测量模型的尺寸。我们采用具有分辨率的输入图像+v：mala2277获取更多论文解决方案512 1024计算浮点运算每秒（FLOPs），这是衡量+v：mala2277获取更多论文模型复杂度4.2实施细节+v：mala2277获取更多论文网络.为了做出公平和可比的评价，我们在同一个教师和学生网上进行实验+v：mala2277获取更多论文[1] Liuet al. ，2019]。具体来说，在我们所有的前-实验， PSPNet 与 ResNet101 [Heet al. ， 2016] ，在ImageNet上预训练，用作教师网络。对于学生网络，我们在不同的分割架构上进行了实验，例如具有ResNet18 骨干的代表性模型 PSPNet 和 Deeplab 以及ESPNet，以验证我们的IDD方法的有效性。培训详情。我们使用Pytorch平台来实现我们的方法。[Zhanget al. ，2018;Liuet al. ，2019]，我们通过小批量随机梯度下降（SGD）训练我们的学生网络，迭代40000次。我们将动量和重量衰减分别设置为0.9和0.0005。我们应用多项式学习率策略，ITER功率总iter基本学习率和功率分别设置为0.01和0.9。对于输入图像，我们将其裁剪为512×512。的+v：mala2277获取更多论文100908070605040图3：Cityscapes验证数据集上基于KD的语义分割方法的类IoU得分我们使用PSPNet-R18（1.0）作为学生网络的骨干。方法mIoU（%）参数（M）FLOPs（G）确认测试T：PSPNet-R10178.5078.40 70.43S：ESPNet61.4060.30 0.3635+ SKD63.804.422+ IFVD65.134.422+ CD67.274.422+我们的68.874.422S：PSPNet-R18（0.5） 61.17 - 3.271 31.53+ CD68.5766.75 3.271+我们的69.7668.54 3.271S：PSPNet-R1870.0967.60 13.0780787674727020 40 60 80 100 120 140参数（M）表3：Cityscapes数据集上不同基于KD的语义分割方法的比较。“PSPNet-R18(0.5)” is trained from应用随机缩放和随机翻转来增加数据。4.3消融研究我们的损失函数由四部分组成，Lskd，Lcw，Lid和Lpi。为了探索每个项目的有效性，我们使用评估指标mIoU（%）对Cityscapes验证数据集进行消融实验。教师网络是PSPNet [Zhaoet al. ，2017]，学生模型是具有ResNet101骨干（“T：PSPNet-R101”）的PSPNet，并且ResNet 18（“S：PSPNet-R18”）也在ImageNet中预训练。从表1中可以看出，结构化KD损失Lskd将学生网络“S：PSPNet-R18”的性能从70.09%提升信道方面的KD损失Lcw进一步将学生模型提高到75.78%。通过采用我们的类间距离蒸馏，增益增加到5.34%（76.43%对70.09%）。此外，在应用我们的图4：Pascal VOC验证集上不同模型的参数和mIoU比较。我们使用PSPNet-R18（1.0）作为学生网络的骨干。在位置信息丢失的情况下，轻量级学习网络 “S ：PSPNet-R18”的定位精度达到77.59%，与“T：PSPNet-R101”的定位精度实验结果表明，我们的IDM和PIDM是有效的。4.4结果城市风景。表2显示了Cityscapes数据集的定量结果。通过使用我们的IDD，我们的学生网络（“我们的”）的参数和FLOP与教师网络相比，mIoU accu-仅下降了2.07%（从78.4%下降到76.33%）。与其它轻量级模型相比，该方法也具有显著的性能.例如，我们的IDD优于 ENet [Paszkeet al. ， 2016]和 ESPNet [Mehtaetal. ， 2018] 的准确度（ mIoU ）分别提高 18.03% 和16.03%。不-值得注意的是，我们的参数只有ICNet的一半[Zhaoetal. 、2018年]，但我们学生网络的准确率仍为5.0%IFVDCD我们OCRNetT：PSPNet-R101DeepLabV3产品编号：PSPNet-R18安FCNmIoU（%）mIoU（%）+ SKD72.7071.4013.07125.8+ IFVD74.5472.7413.07125.8+ CD75.9074.5813.07125.8+我们的77.5976.3313.07125.8+ SKD61.6060.053.27131.53+ IFVD63.3563.683.27131.53+v：mala2277获取更多论文8078767472706866ResNet18 MobileNetV2结果表明，我们的IDD比以前的KD策略更好的语义分割。此外，如图3所示，我们使用PSPNet-R18（1.0）作为学生网络来计算每个类的mIoU，并与两种最先进的方法进行了比较。由于我们的方法使学生网络具有大的类间距离和丰富的位置信息，它在某些类别上表现良好。例如，骑手，汽车和公共汽车。表3显示了定性结果，再次证明了我们的IDD方法的有效性。Pascal VOC。如图4所示，我们采用点图来描述不同网络的参数和精度，即 OCRNet [Yuanet al. ， 2020] ， DeepLabV3 ， FCN[Longetal. ，2015]，ANN [Zhuet al. 2019年]和PSPNet。通过使用我们的空间知识蒸馏，PSPNet-R18（1.0）优于-图5：语义段的不同KD策略的比较-Pascal VOC验证数据集上的信息方法mIoU（%）参数（M）T：PSPNet-R101 44.9470.43S：PSPNet-R18 24.65 13.07+SKD 25.02 13.07+联合会25.82 13.07+CD+我国27.69 13.07S：PSPNet-MNV2 23.21 2.15+SKD 24.89 2.15+国际家庭发展联合会+CD 27.74 2.15+我国28.93 2.15表4：ADE 20K验证数据集上语义分割方法的不同KD方法的比较。高虽然OCNet [Yuanet al. ，2018]比我们的高3.77%，我们的Params不到OCNet的五分之一。结果表明，我们的方法达到了令人满意的精度和模型大小之间的折衷。我们还评估了我们的方法和其他基于城市景观的KD方法的性能，例如 SKD[Heetal. ， 2019] ， IFVD[Wanget al. ，2020]和CD [Shuet al. ，2021]。学生型号为ESPNet、PSPNet-R18（0.5）和PSPNet-R18。实验结果列于表3中。当我们采用ESPNet作为学生网络时，我们的方法在验证集和测试集上分别显著提高了7.47%和7.05%。与传递类内特征方差的SKD和传递通道特征的CD相比，我们的方法的性能分别提高了3.74%和1.60%在使用我们的IDD后，PSPNet-R18（0.5）的性能从61.17%提高到69.76%，并超过IFVD和CD，6.41%和1.19%。当PSPNet-R18以学生模型为例， IDD 模型的收益率为 7.50%（70.09%~77.59%），分别比IFVD和CD模型的收益率高3.05%和1.69% 实验结果形成FCN和ANN分别降低6.79%和0.08%我们采用ResNet18和MobileNetV2作为学生网络来评估我们在验证集上的方法。结果如图5所示。使用ResNet18作为学生网络的骨干，我们的方法将模型的准确性提高了6.01%，比SKD、IFVD和CD分别提高3.74%、2.74%和1.47%。对于MobileNetV2，我们的方法比基准模型提高了4.66%，SKD，IFVD和CD分别提高了2.88%，2.21%和0.89%。ADE20K。为了进一步验证该方法的有效性，我们在具有挑战性的数据集ADE20K上进行了实验。定量结果见表4。当学生模型建立在ResNet18上时，我们提出的方法将学生模型从24.65%提高到27.65%，优于SKD、IFVD和CD2.67%、1.87%和0.89%。随着MobileNetV 2作为学生回来-与基准模型相比，我们获得了6.72%的改善，并改善了SKD，IFVD和CD分别提高4.04%、3.50%和1.19%5结论本文提出了一种新的知识提取方法进行语义分割，使学生模型在特征空间中具有较大的类间距离和丰富的位置信息。具体来说，我们提出了类间距离提取模块和位置信息提取模块，将类间距离和位置信息从教师网络传输到学生网络。烧蚀实验表明，我们开发的两个模块能够使学生网络更好地模仿教师网络我们通过在Cityscapes、Pascal VOC和ADE 20K三个公共数据集上进行广泛的实验来证明我们的方法的有效性。确认本工作得到了国家自然科学基金62106177的资助。数值计算由武汉大学超级计算中心的超级计算系统提供支持。无蒸馏SKDIFVDCD我们mIoU（%）+v：mala2277获取更多论文引用[Chen et al. Liang-Chieh Chen ， George Papandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、无卷积和全连接crfs进行SE-mantic图像分割。 IEEE transactions on pattern analysis and machineintelligence，40（4）：834[Chen et al. Liang-Chieh Chen ， George Papandreou ， Flo-rianSchroff，and Hartwig Adam.重新思考语义图像分割的无迹卷积。arXiv预印本arXiv：1706.05587，2017。[Chen et al. ，2018] Liang-Chieh Chen，Yukun Zhu，GeorgePapan-dreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[Cordts et al. Marius Cordts ， Mohamed Omran ， SebastianRamos ， Timo Rupfeld ， Markus Enzweiler ， RodrigoBenenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议论文集，第3213-3223页[Dia k ogiannisetal. Foiv osIDia k ogiannis，Fran coisWald ner，Peter Caccetta，and Chen Wu. Resunet-a：一个用于遥感数据语义分割的深度学习框架。 ISPRS Journal ofPhotogrammetry and Remote Sensing，162：94114，2020年。[Dong et al. ， 2020] Genshun Dong ， Yan Yan ， ChunhuaShen，and Hanzi Wang.城市街景的实时高性能语义图像分割。 IEEETransactionsonIntelligentTransportationSystems，22（6）：3258[Everingham et al. Mark Everingham、SM Ali Eslami、Luc VanGool、Christopher KI Williams 、John Winn和Andrew Zis-serman。Pascal视觉对象类挑战：回顾。国际计算机视觉杂志，111（1）：98-136，2015。[Fan et al. Mingyuan Fan ， Shenqi Lai ， Junshi Huang ， Xi-aoming Wei，Zhenhua Chai，Junfeng Luo，and Xiaolin Wei.重新思考实时语义分割的bisenet。在IEEE/CVF计算机视觉和模式识别会议上，第9716-9725页，2021年[Fengetal. 冯迪，克里斯蒂安·哈斯-舒茨，拉尔斯·罗森-鲍姆，海因茨·赫特莱因，克劳迪亚斯·格莱泽，法比安·蒂姆，维尔纳·维斯贝克和克劳斯·迪特梅耶。自动驾驶的深度多模态对象检测和语义分割：数据集、方法和挑战。 IEEETransactions on Intelligent Transportation Systems ， 22（3）：1341[He et al. 何开明，张翔宇，任少卿，孙健。深度残差学习用于图像识别。在IEEE计算机视觉和模式识别中，第770-778页[He et al. ，2019] Tong He，Chunhua Shen，Zhi Tian，DongGong，Changming Sun，and Youliang Yan.知识适应有效的语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第578-587页[Hinton et al. 2015年]杰弗里·辛顿，Oriol Vinyals和杰夫·迪恩。在神经网络中提取知识。 arXiv 预印本 arXiv ：1503.02531，2015年。[IJCAI Proceedings，]IJCAI Proceedings. IJCAI相机准备提交。https://proceedings.ijcai.org/info。[Islam et al. Md Amirul Islam，Sen Jia和Neil DB Bruce。卷积神经网络编码了多少位置信息？ arXiv 预印本 arXiv ：2001.08248，2020。[Kemker et al. Ronald Kemker ， Carl Salvaggio ， and Christo-pher Kanan.基于深度学习的多光谱遥感图像语义分割算法ISPRS Journal of Photogrammetry and Remote Sensing ，145：60[Liu et al. ，2019] Yifan Liu，Ke Chen，Chris Liu，ZengchangQin，Zhenbo Luo，and Jingdong Wang.用于语义分割的结构化知识表示在IEEE/CVF计算机视觉和模式识别会议论文集，第2604-2613页[Long et al. Jonathan Long，Evan Shelhamer，and Trevor Darrell.用于语义分割的全卷积网络。在IEEE计算机视觉和模式识别会议论文集，第3431-3440页[Mehta et al. Sachin Mehta ， Mohammad Rastegari ， AnatCaspi，Linda Shapiro和Hannaneh Hajishirzi。Espnet：用于语义分割的膨胀卷积的有效空间金字塔。在欧洲计算机视觉会议（ECCV）的会议记录中，第552-568页[Paszke et al. Adam Paszke ， Abhishek Chaurasia ， SangueloKim，and Eugenio Culurciello. Enet：用于实时语义分割的深度神经网络架构。 arXiv 预印本 arXiv ： 1606.02147 ，2016。[Shu et al. ，2021] Changyong Shu，Yifan Liu，Jianfei Gao，Zheng Yan，and Chunhua Shen.密集预测的逐层知识蒸馏IEEE/CVF计算机视觉国际会议论文集，第5311-5320页，2021年[Tu et al. Zhigang Tu ， Hanyan Li ， Dejun Zhang ， JustinDauwels，Baoxin Li，and Junsong Yuan.用于视频动作识别的第二阶段重点大小时空vlad。IEEE Transactions on ImageProcessing，28（6）：2799[Wang et al. Yukang Wang ， Wei Zhou ， Tao Jiang ， XiangBai，and Yongchao Xu.用于语义分割的类内特征变异蒸馏。在欧洲计算机视觉会议上，第346-362页。斯普林格，2020年。[Xie et al. Jiafeng Xie，Bing Shuai，Jian-Fang Hu，JingyangLin，and Wei-Shi Zheng.通过师生学习改进快速分割。arXiv预印本arXiv：1810.08476，2018。[Yu et al. Changqian Yu，Jingbo Wang，Chao Peng，ChangxinGao，Gang Yu，and Nong Sang. Bisenet：用于实时语义分割的双边分割网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第325-341页[Yuan et al. Yuhui Yuan，Lang Huang，Jianyuan Guo，ChaoZhang，Xilin Chen，and Jingdong Wang. Ocnet：用于场景解析的对象上下文网络arXiv预印本arXiv：1809.00916，2018。[Yuan et al. Yuhui Yuan，Xilin Chen，and Jingdong Wang.用于语义分割的对象上下文表示。在计算机斯普林格，2020年。[Zhang et al. Hang Zhang ， Kristin Dana ， Jianping Shi ，Zhongyue Zhang ， Xiaogang Wang ， Ambrish Tyagi ， andAmit Agrawal.用于语义分割的上下文编码。在IEEE计算机视觉和模式识别会议上，第7151-7160页，2018年+v：mala2277获取更多论文[Zhao et al. Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和模式识别会议论文集，第2881-2890页[Zhao et al. Hengshuang Zhao，Xiaojuan Qi，Xiaoyong Shen，Jianping Shi，and Jiaya Jia.用于高分辨率图像实时语义分割的Icnet。在欧洲计算机视觉会议（ECCV）的会议记录中，第405- 420页[Zhou et al. Bolei Zhou ， Hang Zhao ， Xavier Puig ， SanjaFidler，Aesthetic Barriuso，and Antonio Torralba.通过ade20k数据集进行场景解析。在Proceedings of the IEEE conferenceon computer vision and pattern recognition，pages 6332017.[Zhu et al. Zhen Zhu ， Mengde Xu ， Song Bai ， TengtengHuang，and Xiang Bai.用于语义分割的非对称非局部神经网络。在IEEE/CVF计算机视觉国际会议论文集，第593-602页，2019年。

下载后可阅读完整内容，剩余1页未读，立即下载