纹理知识蒸馏：基于结构和统计的语义分割

167 浏览量更新于2023-10-25 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16876语义分割王浩然1*，王明远1*，黄建强1 *，胡先胜1*，卢洪涛2**，阿里云计算有限公司2上海交通大学计算机科学与工程系@ www.example.comhtlu@sjtu.edu.cn alibaba-inc.com摘要现有的语义分割的知识提取工作主要集中在从教师到学生的高层次上下文知识的转移然而，低级纹理知识对于表征局部结构模式和全局统计特性（诸如边界、平滑度、规则性和颜色对比度）也是至关重要的，这可能无法由高级深度特征很好地解决。在本文中，我们打算充分利用结构和统计的纹理知识，边缘和提出一种新的结构和统计纹理知识蒸馏（SSTKD）框架的语义分割。具体来说，对于结构纹理知识，我们引入了一个Contourlet分解模块（CDM），该模块利用迭代拉普拉斯金字塔和方向滤波器组分解低层特征来挖掘结构纹理知识。对于统计知识，本文提出了一种去噪纹理强度均衡模型（DTIEM），通过迭代量化和去噪运算自适应地提取和增强统计纹理知识。最后，每个知识学习都由一个单独的损失函数来监督，迫使学生网络从更广泛的角度更好地模仿老师。实验结果表明，该方法在Cityscapes、Pas- cal VOC 2012和ADE 20 K数据集上取得了较好的性能。1. 介绍语义分割是计算机视觉中的一项关键而又具有挑战性的任务，其目的是为输入图像的每个像素分配一个唯一的类别标签。最近，基于深度全卷积网络[32]的方法已经*同等贡献†通讯作者。卢洪涛也是MoE人工智能重点实验室，上海交通大学人工智能研究所，中国。结构纹理知识统计纹理知识蒸馏后提取物主干低级功能图1.概述了一个示例图像的结构和统计纹理知识提取从CNN骨干的低层特征中提取两种纹理知识原始的结构和统计纹理是模糊的，对比度低。蒸馏后，轮廓更加清晰，强度对比更加均匀，表明两种质地都得到了增强。在语义分割方面取得了显著的效果，并且已经研究了广泛的方法，通过引入复杂的模型来提高分割精度[6，8，23，27，44，46，47，50，52]。然而，这些方法通常是基于一个大的模型，其中包含大量的参数。由于语义分割在自动驾驶、视频监控、机器人感知等领域显示出巨大的应用潜力，如何在保证高精度的前提下，保持高效的推理速度和高精度16877分辨率图像是一个关键问题。本文的重点是知识蒸馏，由Hinton等人[22]基于教师-学生框架引入，并在语义分割社区[20，30，31，37，42]中受到越来越多的关注。以前的工作主要集中在高级上下文知识[30，37]或最终响应知识[20，31，42]上，这些知识适合于捕获像素之间的全局上下文和长程关系依赖性，但也会导致粗糙和不准确的分割结果，因为它们通常是用大的感受野提取的，并且错过了许多低级纹理细节。本文着重于挖掘教师的纹理知识，丰富学生的底层信息。根据数字图像处理[18]，纹理是一种区域描述符，可以提供图像的局部结构特性和全局统计结构特性也可以看作是谱域分析，通常涉及到一些局部特性，如边界、光滑性和粗糙度。而统计特性则侧重于全局分布分析，如灰度直方图。基于以上分析，我们提出了一个新的结构和统计纹理知识蒸馏（SSTKD）框架，以有效地蒸馏两种纹理知识从教师模型到学生模型，如图1所示。更全面地说，我们介绍了一个Contourlet分解模块（CDM），它分解低级别的功能，挖掘结构纹理知识与迭代拉普拉斯金字塔和方向滤波器组。Contourlet分解是一种多尺度几何分析工具，能使神经网络具有几何变换的能力，因而自然适合于描述结构特性。此外，我们提出了一个去噪纹理强度均衡模块（DTIEM）自适应地提取和增强统计知识，与基于锚点的自适应重要性采样器合作DTIEM可以在深度神经网络中以统计方式有效地描述统计纹理强度，以及抑制纹理均衡过程中近恒定区域放大效应产生的噪声。总的来说，我们的贡献有三个方面：• 据我们所知，这是第一个工作，引入结构和统计纹理的知识提取语义分割。我们提出提出了一种新的结构与统计纹理知识提取（Structural andStatisticalTextureKnowledgeDistillation，SSTKD）框架，以有效地提取和增强统一的纹理知识，并将其应用于师生提取。• 更全面地介绍了Contourlet分解模块（CDM），提出了去噪纹理强度均衡模块（DTIEM）分别描述结构和统计结构。此外，DTIEM利用自适应重要性采样器和去噪操作，以实现高效和准确的表征。• 实验结果表明，提出的框架实现了国家的最先进的性能在三个流行的基准数据集，无论学生骨干的选择。2. 相关工作语义分割。现有的语义分割工作主要集中在上下文信息和精细网络[16，21，26，33]。许多作品[6-8如何在准确性和效率之间找到更好的平衡点已经讨论了很长时间。实时语义分割算法的目标是在有限的计算下产生高质量的预测[2，34，41，45，49]。BiSeNet [45]引入了空间路径和语义路径来降低计算成本。然而，尽管它们的效率，有一个很大的差距，在perfor-mance要考虑的。知识蒸馏。在典型的知识表示框架中，逻辑被用作来自教师模型的知识[4，22]。在其他视觉应用中，如目标检测和人体姿态估计，许多工作都遵循了这一原则。在语义切分中，经验方法也利用了这一思想，得到了基本的结果.他们将输出地图转移到学生模型中，分别提取每个像素的类别概率。在此基础上，他们进一步提出了从任务特定的角度提取不同的知识。He etal. [20]提出了一个亲和度提取模块，将广泛分离的空间区域之间的长期依赖关系从教师模型转移到学生模型。SKD [30]提出了结构化知识蒸馏，以在对抗学习的帮助下转移成对关系和整体知识。IFVD [40]迫使学生模型模仿教师模型的类内特征变化CWD [37]最小化了教师和学生网络的通道概率图之间的不同的是，我们首先引入纹理知识的语义分割，显示了一个有效的框架，这项任务。语义分割中的纹理。在数字图像处理[18]中，纹理是一种描述图像平滑性、粗糙度、规则性等特征的描述符，它不仅是图像局部结构模式的描述，而且是图像全局统计特征的描述16878老师网络convPPM学生网络convPPM高通子带带通方向子带LPFDFBF...（二DFB低通子带带通方向子带基于锚点的自适应重要抽样迭代量化级初始化去噪强度均衡输出地图输出地图应对知识纹理知识DTIEMCDM图2.概述我们提出的框架。PSPNet [50]被用作教师和学生网络的模型架构，其中包括骨干网络，金字塔池模块（PPM）和最终输出映射。除了响应知识，我们进一步提出了从低层特征中提取纹理知识。两种纹理知识的对应部分分别在网络管道下方以淡红色[1，3，29]和浅绿色表示财产Zhu等人[52]首先将统计纹理引入到语义分割中，提出了一种量化计数算子（QCO）来提取底层统计纹理特征，然后将其与高层上下文特征聚合然而，QCO执行为全局方式和稀疏量化，以及忽略由放大效应产生的噪声。此外，在他们的工作中没有很好地解决结构纹理信息。本文从纹理的结构信息和统计信息的统一角度出发，提出了基于锚点的重要性采样、几何迭代量化和去噪等方法来改进纹理的统计特性，并提出了CDM方法来重新强调纹理的结构性。3. 方法在本节中，我们详细介绍了所提出的结构和统计纹理知识蒸馏（SSTKD）框架首先，我们介绍了第3.1节。随后，我们在3.2节和3.3节分别介绍了结构纹理知识提取和统计纹理提取最后，我们在3.4节中提供了优化过程。3.1. 概述所提出的方法的总体框架如图2所示。上层网络是教师网络，下层网络是学生网络.根据以前的工作[30，37，40]，PSPNet [50]架构用于教师和学生，ResNet-101和ResNet-18 [19]分别用作其骨干网，也可以更改为任何其他骨干网。首先，我们采用与以前的工作[30，37，40]相同的知识蒸馏的基本思想来对齐教师和学生之间的基于响应的具体来说，我们使用KL散度来监督逐像素概率分布和对抗学习来加强输出分割图。此外，我们提出了两种纹理知识的提取16879HGSSB-分析滤波器合成滤波器↓低通子带x高通子带横向细节，分别。最后，可以通过以下等式来描述等级n中的轮廓波分解图3. LP分解[11，12，29]。低通子带Fl，n+1，Fh，n+1=LP（Fl，n）↓pFbds，n+1=DFB（Fh，n+1）n∈[1，m]（一）利用低通分析滤波器H和采样矩阵S从输入x生成a。然后，高通子带b被计算为x和a的预测之间的差，其中采样矩阵S之后是低通合成滤波器G。从教师和学生模型的ResNet主干的前两层开始，因为纹理信息更多地反映在低级特征上。对于结构纹理知识，我们引入了一个Contourlet分解模块（CDM），它利用了谱空间中的结构信息对于统计纹理知识，我们引入了一个去噪纹理强度均衡模块（DTIEM）来自适应地提取统计纹理信息。其中，符号是下采样算子，P表示隔行下采样因子，L和H分别表示低通和高通分量，BDS表示带通方向子带。为了更丰富的表达，我们在CDM中迭代地堆叠多个轮廓波分解层。通过轮廓波分解得到丰富的带通方向特征，并将其作为结构纹理知识Fstr进行提取。我们将CDM分别应用于教师和学生网络，并使用传统的均方（L2）损失来表示纹理蒸馏损失：L（S）=1 <$（Fstr;T-Fstr;S）2（2）利用自适应重要性采样器对直方图进行去噪处理和图形推理。str（宽×高）我我i∈R最后对两类知识进行优化，其中Fstr;T和Fstr;S表示纹理fea中的第i个像素具有两个个体均值ii的师生模型平方（L2）损失。3.2. 结构纹理知识提取传统滤波器对于谱域中不同尺度和方向的纹理表示具有固有的优势，这里我们考虑利用contourlet分解，这是一种多尺度几何分析工具，在局部性和方向性方面具有实质性优势[11基于这些优点，我们引入了轮廓波分解模块（CDM）[11，29]来挖掘谱空间中的纹理知识。图2中的浅红色部分显示了CDM的详细信息具体来说，它在低通图像上迭代地采用拉普拉斯金字塔（LP）[5]和方向滤波器组（DFB）[1，3，9]LP的目的是获得多尺度分解。如图3所示，给定输入特征x，使用低通分析滤波器H和采样矩阵S来生成下采样的低通子带，然后通过原始x和中间结果之间的差来获得高通子带，该中间结果由采样矩阵S和低通合成滤波器G计算[5，29]。接下来，利用DFB以最小样本表示重建原始信号，该最小样本表示通过二维频域中的m级二叉树分解生成，从而产生2m个方向子带[3]。例如，当m=3时，频域被划分为23 =8个方向子带，并且子带0-3和4-7对应于垂直方向，由教师网络T和学生网络S产生的特征，i∈R=W×H表示特征大小。3.3. 统计纹理提取统计纹理通常是多种多样的，谱域中的连续分布，难以在深度神经网络中提取和优化。前人的工作[52]首先提出了一种量化计数算子（Quantization andCount Operator，QCO）来描述统计纹理，该算子将整个输入特征量化为多个统一的层次，然后统计属于每一层次的特征数量然而，普通QCO存在三个局限性。首先，该方法对输入特征进行全局量化，导致量化层次分布稀疏离散，无法很好地平衡纹理精度和计算量之间的矛盾。其次，像素数量将永远不会被量化到任何级别，因为它产生的初始量化级别由一个均匀的分布，同时使用几个窄峰函数量化的输入特征。第三，在量化过程中，可能会遇到由近恒定区的过放大效应产生的量化噪声我们建议在普通QCO的此外，我们针对图2中浅绿色部分所示的三个限制提出了三项改进。首先，为了准确的表征和有效的计算，我们利用了一个16880∈N∈−∈·∈Σ−∈n基于锚点的自适应重要性采样器，仅选择重要区域进行提取。其次，我们设计了一种量化迭代方法，以获得更均衡的量化水平初始化。第三，我们利用去噪操作来抑制过放大效应。在此基础上，提出了去噪纹理强度均衡模块（DTIEM），用于自适应地提取和增强静态纹理。在以下各节中，我们将详细说明上述模块。基于锚点的自适应重要性采样器。前-并将其量化为N个均匀电平L。然后对每个量化级别的值进行计数，得到量化编码矩阵ERN×HW。最后利用一个简单的全连通图进行量化层次的还原和纹理增强。量化可以公式化为：L=max（S）−min（S）·n+min（S），n∈[1，N]n-是的 1−|Ln−Si|如果-0。5≤Ln−Si<0.5提取整个输入特征的统计纹理是简单的，但缺乏对区分性Ei=0N其他N（四）区域，并且仅当像素的特征强度接近均匀分布时才能很好地工作。然而，现实世界中的场景通常是冒犯与混沌条件和像素强度往往是严重不平衡的分布。此外，对整幅图像的全局运算不能够准确地描述局部强度对比度，并且总是意味着较大的计算负担。因此，我们考虑采用重要性抽样方法来挖掘特征强度分布离散多变、统计纹理丰富多样的难分类区域。遵循典型的范式[25]，我们设计了一个基于锚点的自适应重要性采样器。它旨在通过以下步骤[25]使选择偏向于最不确定的区域，同时保持一定程度的均匀覆盖。（i）过生成：针对样本M点，为了保证多样性和召回率，我们通过随机选择kM（k > 1）来过生成候选点。点均匀分布。（ii）重要性相同-在kM个点中，采用基于锚点的自适应重要性抽样策略，选出最不确定的βM（β[0，1]）个点。(iii)覆盖：为了平衡分布，我们从具有均匀分布的其余点中选择剩余的（1β）M由于发现最关键的步骤在于重要性抽样，我们制定了这个过程如下。对于每个样本s ikM，我们在该位置处设置具有各种尺度和纵横比的若干锚点。通过这种方式，我们为每个si生成一个区域建议Ri。对于每个r ij∈ R i（i ∈[1，kM]，j∈[1，<$]），我们通过以下公式计算其样本概率probij=std（rij）（3）其中std（）表示方差函数。它表明，具有较大方差的区域将更有可能被采样，因为其强度分布是多样的，并且可能具有需要增强的更丰富的统计纹理注意到学生利用与教师相同的重要性抽样结果来选择区域建议。纹理提取和亮度均衡。 QCO是受直方图量化的启发[18]，并描述了tex-∈其中i[1，HW]。在此基础上，我们提出了另外两个改进方案。对于量化级，采用了一种迭代的方法来代替均匀量化。具体地说，我们使用一个简单的t步均匀抽样来表示一个注意力抽样的结果.首先，我们将输入过量化为2N个级别，以保证大多数点可以被量化到其中一个级别，获得具有等式的量化编码矩阵。4.第一章基于所有量化级别的计数值，我们设置强度比阈值δ，以将量化级别分为两组G<δ和G>=δ，然后将其重新量化为αN（α[0，1]）和（1α）N个水平以获得最终N个水平。可以迭代地执行上述过程这样，可以减弱量化级之间的此外，对于Eq.4.由于每个中间组的层数远小于N，所以用当前组的层数代替N，自适应地加宽了峰值，从而可以加宽每个量化函数的覆盖范围。强度受限的去噪策略。对于噪声过放大问题，受对比度限制自适应直方图均衡化[35]的启发，我们提出了一种强度限制去噪策略，以约束强度峰值并动态地将额外峰值重新分布到所有量化级别。更全面地，对于每个选择的区域和N个量化级别，我们通过等式（1）得到初始量化编码矩阵E4.第一章由于接近常数的子区域，某些级别的计数值可能会显示在一个非常高的峰值[35]中，我们使用给定的比率阈值θ执行强度剪切操作来限制这些峰值，然后在所有量化级别中额外平均地减少额外峰值E最后，可以计算去噪量化编码矩阵DENEextra=[max（En−θ·max（E），0）]（5）nn.θ·max（E）+Eextra如果En>θ·max（E）NN以统计的方式。给定输入特征ARC×H×W，它首先计算自相似矩阵S，DE=En+Eextra其他（六）16881∈·我∈××··−−最大迭代器其中n[1，N]，max（）是最大值函数。然后，DE也与图推理增强作为大量工作[52]，以获得统计纹理知识Fsta。与结构纹理知识蒸馏类似，我们将DTIEM分别应用于教师和学生，并使用L2损失来公式化蒸馏损失：L（S）= 1<$（Fsta;T-Fsta;S）2 （7）sta（宽×高）我我i∈R表1.两种质地的功效知识。其中，Fsta;T和Fsta;S表示统计纹理教师和学生各自的知识3.4. 优化遵循语义分割的常见实践和先前知识蒸馏工作[30，40]，我们还添加了基于基本响应的蒸馏损失Lre和对抗损失Ladv用于稳定梯度下降优化：L=1KL（P re;T||（8）ADE20K。ADE20 K数据集包含用于训练、验证和测试的20 K/2K/3 K图像，包含150个不同场景的类别。Pascal VOC 2012。Pascal VOC 2012数据集[15]是用于训练、验证和测试的10，582/1，449/1，456个图像的分割基准，其涉及20个前地对象类和一个背景类。评估指标。在所有的实验中，我们采用平均交并（mIoU）来研究蒸馏效果。（Wre×Hre）我我i∈R生育能力模型大小由网络参数的数量表示，复杂性由以下公式计算：其中Pre;T和Pre;S表示i的类概率。在一个转发中浮点运算（FLOP）的总和i i在固定输入大小上的传播由教师和学生模型分别产生的第个像素，R=W reH re表示输出大小。对抗训练旨在制定整体蒸馏问题[30，43]，并表示如下：Ladv=ESp（S）[D（S|（九）其中E（）是期望算子，D（）是判别算子。I和S分别是输入图像和对应的分割图因此，对于整体优化，整个目标函数由用于语义分割的常规交叉熵损失Lseg和上述蒸馏损失组成：L=Lseg+λ1Lstr+λ2Lsta+λ3Lre−λ4Ladv（10）其中，λ1、λ2、λ3、λ4分别设置为0.9、1.15、5、0.01。4. 实验4.1. 数据集和评估指标为了验证该方法的有效性，我们在以下大规模数据集上进行了实验。城市景观。Cityscapes数据集[10]包含从50个不同城市捕获的5，000张图像，并包含19个语义类。每个图像有2048 - 1024像素，具有高质量的像素级标签的19个语义类。有2，979/500/1，525张图像用于训练、验证和测试。4.2. 实现细节继[30，37，40]之后，我们采用具有ResNet 101 [19]骨干的PSPNet [50]作为教师网络，并使用具有不同紧凑骨干的PSPNet作为学生网络，包括Resnet 18 [19]和EfficientNet-B1 [38]，这也验证了教师模型和学生模型具有不同架构类型时的有效性。本文采用离线建模的方法，先训练教师模型，然后在蒸馏过程中保持参数冻结。在学生网络的训练过程中，随机缩放（从0.5到2.1）和随机水平翻转（概率为0.5）被用作数据增强。我们在CDM中迭代地实现两级轮廓波分解，其中m分别设置为4和3我们设N=50，α=0。3，θ=0。9 .第九条。采用带有动量的随机梯度下降作为优化器，其中动量为0.9，权重衰减率为1 e-5。基本学习率为0.015并乘以（1iter）0。9 .第九条。我们训练模型80000次迭代，批量大小为16。4.3. 消融研究在所有的消融研究中，我们使用Cityscapes验证数据集，以及从ImageNet预训练的ResNet-18作为学生网络的骨干。两种纹理知识的有效性。表1显示了两种纹理知识的有效性。我方法mIOU（%）T：PSPNet-R101产品编号：PSPNet-R1878.5669.10+应对知识72.47+响应+结构纹理知识74.10+响应+统计纹理知识74.69+响应+结构+统计纹理知识75.15re16882CDM中的级别数valmIoU（%）基线72.47173.44274.10374.11表2.层数对孔图波分解的影响方法参数（M）FLOPs（G）PSPNet70.43574.9CDM1.2410.90DTIEM2.8023.73表3.所提出的纹理模块的Flops和参数。DTIEM中的组件mIOU（%）基线72.47+全球73.57+自适应。样品74.06+自适应。样品+ 启发式初始化74.25+自适应。样品+ 启发式初始化+降噪74.69表4.统计学知识的消融研究。“全局”是指不进行采样的全局操作，“自适应。桑普。”表示基于锚点的自适应重要性采样，“启发式初始化”。意味着量化级别初始化。边缘未经蒸馏的学生网络达到了69.10%的结果，而响应知识将其提高到72.47%。然后，我们进一步添加两种纹理知识依次验证每一个的效果。具体地说，结构纹理知识使识别率提高了5.0%，统计纹理知识使识别率提高了5.59%。最后，当我们加入纹理知识时，性能提升到75.15%，大幅提高了6.05%。学生和教师之间的差距最终缩小，为教师网络提供了更紧密的结果。结构纹理知识分析。我们进行实验，以验证组件的有效性，在结构纹理模块，并显示在CDM中的水平数的comtourlet分解。如表2所示，“基线”表示具有响应知识的学生网络的结果，随着层级数逐渐增加，mIOU逐渐增加，并在74附近保持不变。1%，这表明纹理知识几乎饱和时，水平数达到2。统计纹理知识分析在表4中，我们显示了统计纹理模块中不同组件的效果，“基线”表示学生网络与响应知识的结果。首先，我们执行一个全局(a) 图像（b）无纹理KD（c）有纹理KD图4.骨干第1阶段的低级特征的可视化比较。KD是指知识的升华。(a) 是原始图像。(b)是来自没有纹理知识蒸馏的学生网络，（c）显示了将其应用于我们的方法后的变化。线1和3显示结构纹理，而线2和4显示统计纹理。(a) 图像（b）W/O蒸馏（c）我们的方法（d）GT图5. Cityscapes数据集的视觉改进：（a）原始图像，（b）w/o蒸馏，（c）我们的蒸馏方法，（d）地面实况。我们的方法改进了学生网络w/o蒸馏，以产生更准确和详细的结果，这些结果由虚线圈出。对整个图像进行特征强度均衡，得到有限的改善。然后依次加入自适应采样、量化级迭代初始化和去噪策略，性能逐渐得到改善。纹理提取模块的复杂性。我们在表3中表明，所提出的纹理模块是轻量级的，这是用固定的输入大小估计的。结果表明，与PSPNet相比，CDM和DTIEM仅带来很少的额外成本。可视化。图4显示了使用ResNet18主干的学生网络的底层特性为了比较，我们给出了学生网络w/和w/o纹理知识蒸馏在我们的方法的结果。具体来说，图4（b）显示了在没有结构/统计纹理的情况下产生16883方法Pascal VOCmIOU（%）ADE20KmIOU（%）Params（男）简体中文[CN]69.639.91134.5[27]第二十七话82.440.7118.1Deeplab V3 [6]77.944.9987.1PSANet [51]77.943.4778.13OCRNet [46]80.343.770.37结果w/和w/o蒸馏方案T：PSPNet-R101[50]78.5678.470.43574.9产品编号：PSPNet-R1869.1067.6013.07125.8+ SKDS [30]72.7071.4013.07125.8+ SKDD [31]74.08-13.07125.8+ [第40话]74.5472.7413.07125.8+ CWD [37]74.87-13.07125.8+ SSTKD75.1574.3913.07125.8产品编号：Deeplab-R1873.3772.3912.62123.9+ SKDS [30]73.8772.6312.62123.9+ [第40话]74.0972.9712.62123.9+ CWD [37]75.9174.3212.62123.9+ SSTKD76.1375.0112.62123.9产品编号：EfficientNet-B160.4059.916.709.896+ SKDS [30]63.1362.596.709.896+ [第40话]66.5064.426.709.896+ CWD [37]--6.709.896+ SSTKD68.2665.776.709.896表5.城市景观的定量结果。“R18”(“R101”) means知识正如我们所看到的，纹理细节非常模糊，在低对比度下，物体的轮廓也不完整。相比之下，当结合两种纹理知识时，它们在图4（c）中更清晰在这种情况下，汽车标志和车道线的轮廓可以为语义分割提供更正确的线索。该现象说明了纹理知识的有效性，提供了一个更好的理解我们的方法。此外，我们还将图5中不同方法的结果可视化，以便更好地进行比较。4.4. 与现有技术的城市景观。表 5 显示，所提出的 SSTKD 框架在Cityscapes验证和测试数据集中使用不同的主干实现了最先进的结果。更全面地说，SSTKD将基于ResNet-18构建的学生模型（PSPNet）在验证和测试数据集上分别提高了75.15%和74.39%。此外，我们还将学生骨干网改为Deeplab和EfficientNet-B1，这表明了SSTKD的通用性。此外，实验结果还表明，我们的基线改善了很大的幅度。结果w/和w/o蒸馏方案T：PSPNet-R101[50]78.5244.3970.43产品编号：PSPNet-R1865.4224.6513.07+SKDS [30]67.7325.1113.07+IFVD [40]68.0425.7213.07+CWD [31]69.2526.8013.07+SSTKD70.9829.1913.07产品编号：Deeplab-R1866.8124.8912.62+SKDS [30]68.1325.5212.62+IFVD [40]68.4226.5312.62+CWD [31]69.9727.3712.62+SSTKD71.4529.7912.62表6. Pascal VOC 2012和ADE 20K的定量结果。“R18”(“R101”)means.Pascal VOC 2012 和 ADE20K 。表 6 显示了 PASCALVOC 2012和ADE 20K验证数据集上最先进方法的比较。实验结果表明，该方法在不进行蒸馏的情况下提高了学生网络的性能，同时在所有情况下都超过了以前的工作，而不管学生网络的结构和骨干网的选择。5. 结论在本文中，我们专注于低层次的结构和统计知识的提取语义分割。具体地说，我们引入了Contourlet分解模块来有效地提取结构纹理知识，引入去噪纹理强度均衡模块来描述和增强统计纹理知识。在不同的监督下，我们迫使学生网络从更广阔的视角更好地模仿教师网络实验结果表明，本文方法在三个语义分割数据集上均取得了较好的分割效果，证明了本文方法的有效性和优越性。确认本工作得到了国家重点研发计划项目（ 2020AAA0103902 ）、国家自然科学基金项目（No.62176155和No.61772330）、上海市科学技术委员会项目（2021SHZDZX0102）的部分资助。方法城市景观mIOU（%）参数（M）触发次数（G）Val测试ENet [34]-58.30.3583.612ICNet [49]-69.526.5028.30简体中文[CN]-62.7134.5333.9[27]第二十七话-73.6118.1525.716884引用[1] 作者声明：John F.在卷积神经网络中使用滤波器PatternRecognition Letters，84：63[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481[3] Roberto H Bamberger和Mark JT Smith。图像方向分解滤波器组：理论与设计.IEEE信号处理学报，40（4）：882[4] 克里斯蒂安·布西卢、里奇·卡鲁阿纳和亚历山德鲁·尼古列斯库-米兹尔。模型压缩。在Proceedings of the 12thACM SIGKDD international conference on Knowledgediscovery and data mining，pages 535[5] 彼得·伯特和爱德华·阿德尔森。拉普拉斯金字塔作为一个紧凑的图像代码。 IEEETransactions oncommunications，31（4）：532[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[7] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意尺度：尺度感知的语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第3640-3649页[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[9] Mircea Cimpoi、Subhransu Maji和Andrea Vedaldi。用于纹理识别和分割的深度滤波器组在IEEE计算机视觉和模式识别会议的论文集，第3828-3836页[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[11] Minh N Do和Martin Vetterli。Contourlet：一种方向性多分辨率图像表示。在诉讼中。图像处理国际会议，第1卷，第I-I页。IEEE，2002年。[12] Minh N Do和Martin Vetterli。轮廓波，超越小波。NewYork：Academic，2003.[13] Minh N Do和Martin Vetterli。轮廓波变换：一种有效的方向多分辨率图像表示。IEEE Transactions on imageprocessing，14（12）：2091[14] David Leigh Donoho和Ana Georgina Flesia谐波分析的最新创新能否乌拉尔图像统计？ Network ： Computation in NeuralSystems，12（3）：371[15] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[16] Clement Farabet ，Camille Couprie ，Laurent Najman ，and Yann LeCun. 学习场景标记的层次特征。 IEEEtransactionsonpatternanalysisandmachineintelligence，35（8）：1915[17] 傅军，刘静，田海杰，李勇，鲍勇军，方志伟，卢汉青.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集，第3146- 3154页[18] 张文，张文，等.数字图像处理技术，2002.[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[20] Tong He ， Chunhua Shen ， Thi Tian ， Dong Gong ，Changming Sun，and Youliang Yan.知识适应有效的语义分割。在IEEE计算机视觉和模式识别会议论文集，第578-587页[21] Xumi ngHe，RichardSZemel和MiguelA'Carreira-Perpintaka'n.用于图像标记的多尺度条件随机场2004年IEEE计算机协会计算机视觉和模式识别会议论文集，2004年。CVPR 2004。，第2卷，第II-II页。IEEE，2004年。[22] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[23] Hanzhe Hu，Deyi Ji，Weihao Gan，Shuang Bai，WeiWu，and Junjie Yan.用于语义分割的逐类动态图卷积。在计算机Springer，2020年。[24] 季德毅，王浩然，胡汉哲，甘伟豪，吴伟，严俊杰。用于目标再识别的上下文感知图卷积网络。arXiv预印本arXiv：2012.04298，2020。[25] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克.点趋势：图像分割作为渲染。在IEEE/CVF计算机视觉和模式识别会议上，第9799-9808页[26] L用于对象类图像分割的关联分层crfs。2009年IEEE第12届计算机视觉国际会议，第739-746页。IEEE，2009年。[27] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在IEEE计算机视觉和模式识别会议论文集，第1925-1934页[28] Guosheng Lin，Chunhua Shen，Anton Van Den Hengel，and Ian Reid.使用深度结构化模型探索上下文，16885语义切分 IEEE transactions on pattern analysis andmachine intelligence，40（6）：1352[29] 刘梦坤，焦立成，刘旭，李玲玲，刘芳，杨淑媛。C-cnn：Contourlet卷积神经网络。IEEE Transactions onNeural Networks and Learning Systems，32（6）：2636[30] Yifan Liu ， Ke Chen ， Chris Liu ， Zengchang Qin ，Zhenbo Luo，and Jingdong Wang.结构化知识提炼用于语义分割。在IEEE计算机视觉和模式识别会议论文集，第2604-2613页[31] Yifan Liu ， Changyong Shu ， Jingdong Wang ， andChunhua Shen. 密集预测的结构化知识蒸馏。 IEEETransactionsonPatternAnalysisandMachineIntelligence，2020。[32] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分

下载后可阅读完整内容，剩余1页未读，立即下载