基于跨图像关系知识提取的语义分割

182 浏览量更新于2023-10-25 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12319基于跨图像关系知识提取的语义分割杨传光1、2周贺龙3安竹林1姜雪4徐勇军1张倩31中国科学院计算技术研究所，中国北京2中国科学院大学，中国3地平线机器人4武汉大学{yangchuanguang，anzhulin，xyj} @ ict.ac.cn{helong.zhou，qian01.zhang} @ horizon.aijxt@whu.edu.cn摘要目前的知识蒸馏（KD）方法的语义分割往往引导学生模仿教师123 4师生年度数据样本。然而，它们忽略了对KD有价值的本文提出了一种新的交叉-213Mimic 10213图像关系KD（CIRKD），专注于传输-4444环形结构的像素-像素和像素-区域关系(a) 图像内关系KD。(b) 跨图像关系KD。在整个图像中。动机是一个好的教师网络可以根据全局像素依赖性构建一个结构良好的特征空间。CIRKD使学生模仿教师更好的结构化语义关系，从而提高分割性能。在Cityscapes、CamVid和Pascal VOC数据集上的实验结果证明了我们所提出的方法对最先进的蒸馏方法的有效性该代码可在https://github.com/winycg/CIRKD上获得。1. 介绍语义分割是计算机视觉中一项重要且具有挑战性的任务。它的目的是用一个单独的类别标签对输入图像中的每个像素进行分割的应用通常集中在自动驾驶，虚拟现实和机器人。虽然流行的最先进的分段网络，如DeepLab [3，5]，PSPNet [51]和OCRNet [47]，实现了卓越的性能，但它们通常需要高计算成本。这一弱点使得它们难以在资源有限的移动设备上部署用于现实世界的场景。因此，提出了一系列轻量级分割网络，如ESPet [24]、ICNet [50]和BiSeNet [46]。此外，模型压缩也是一个可供选择的领域，*通讯作者。图1.图像内（左）和我们提出的跨图像关系蒸馏（右）的概述具有相同颜色的圆圈（或）表示来自相同图像的像素嵌入。 ti和si分别表示来自教师和学生的图像中标记的第i个像素位置的像素嵌入。虚线（）示出了两个像素之间的相似性关系。圆圈和线条构成了一个关系图。Pact网络，主要分为量化[37]，prun- ing [2，43]和知识蒸馏（KD）[16，30，41]。本文研究KD，以提高一个紧凑的学生网络的性能下，一个高容量的教师网络的语义分割的广泛的KD方法[16，18，41，48]已经得到了很好的研究，但主要用于图像分类任务。与图像级识别不同，分割任务的目标是密集像素预测，这更具挑战性。先前的研究[18，22]已经发现，直接利用基于分类的KD方法来处理密集预测任务可能无法实现期望的性能。这是因为严格对齐教师和学生网络之间的粗糙特征图可能导致负面约束并忽略像素之间的结构化上下文。最近的工作试图提出专门的KD方法[14，20，21，30，35，40]用于语义分割。大多数专注于挖掘SPA之间的相关性或依赖性1 2 34 1234老师学生322模仿13112320因为分割需要结构化的典型的知识可以是局部像素亲和力[40]，全局成对关系[14，20]和类内像素变化[35]。这样的方法在捕获结构化空间知识方面通常比逐点对齐最近，Shu et al. [30]揭示了每个通道代表一个类别特定的掩码，因此提出了智能KD（CWD）[30]。CWD实现了最先进的蒸馏性能，并证明了通道级信息对于密集预测任务的重要性。然而，以前的分割KD方法通常引导学生模仿教师它们忽略了像素之间的跨图像语义关系以进行知识传递，如图所示。1.一、基于这一动机，我们提出了跨图像相关知识提取（CIRKD）的语义分割。其核心思想是在整个训练图像中构建全局像素关系作为有意义的知识。一个好的预先训练的教师网络可以生成一个结构良好的像素嵌入空间，并捕获比学生网络更好的像素相关性。基于此属性，我们将这样的像素关系从教师转移到学生。具体来说，我们提出像素到像素蒸馏和像素到区域蒸馏，以充分利用各种图像之间的结构化关系前者的目的是在像素嵌入之间传递相似性分布后者的重点是转移像素到区域的相似性分布的补充，前者。区域嵌入是通过平均池化来自同一类的像素嵌入而生成的，并且表示该类The pixel-to-region relations indicate the rela-tive similarities between pixels and class-wiseprototypes.构建跨图像关系的一种简单方法是从当前mini-batch中导出嵌入。然而，分割任务的批量大小通常很小，限制了网络捕获更广泛的像素依赖性。受以前的自监督学习[31，38]的启发，我们在分类库中引入了像素队列和区域队列，以存储用于建模长距离像素关系的丰富嵌入队列中的嵌入在蒸馏过程中是一致的，因为它们是从预先训练和冻结的教师网络中生成的。我们认为教师和学生像素嵌入从当前的小批量作为锚。我们从队列中随机抽取对比嵌入，以模拟像素到像素以及像素到区域的相似性分布。然后，我们通过从学生到教师的KL分歧来调整这种软关系CIRKD引导学生网络从教师那里学习训练图像中相对像素结构的全局属性，进一步提高分割性能。我们评估我们的方法超过流行的DeepLabV3[5]和PSPNet [51]架构上的三个分割基准数据集：[7]，CamVid [1]和Pascal VOC [9]。实验结果表明，CIRKD优于其他国家的最先进的蒸馏方法，证明了转移全局像素关系的语义分割的价值。主要贡献概述如下：我们提出了跨图像的关系KD转移全局像素关系。我们可能是第一个在全局图像上建立像素依赖关系以进行分割KD的人。我们提出了像素到像素和像素到区域的映射与内存库机制，以充分探索结构化的关系转移。我们的CIRKD在公共分割数据集上实现了最佳的蒸馏2. 相关工作语义分割。全卷积网络（FCN）[23]为语义分割的端到端密集特征学习创建了一个开创性的范例。由于上下文像素依赖性对于分割性能至关重要[36]，因此捕获长距离关系成为一个关键主题。DeepLab [3]应用atrous卷积来扩大接受域，以学习更广泛的上下文。DeepLabV3 [4]并行组装具有各种atrous速率的卷积块以捕获多尺度上下文。PSPNet [51]提出了一个金字塔池化模块来利用基于不同区域的上下文聚合。RefineNet [19]通过下采样过程的长程残差连接保留高分辨率预测。最近，SegFormer [39]利用结构化的然而，这种具有昂贵计算成本的高性能分割网络难以在资源有限的移动设备上部署。高效的分割网络吸引了广泛的关注，由于需要实时推理。大多数工程试图设计出具有廉价操作的轻量级网络。ENet [26]配备了早期下采样、小解码器大小和滤波器因子分解。ESPNet [24]将标准卷积分解为扩张卷积的空间金字塔。ICNet [50]构建了一个级联结构，以平衡低分辨率和高分辨率特征之间的效率。BiSeNet[46]结合了空间路径和上下文路径来有效地处理特征。除了设计分段框架之外，轻量级骨干网络[29，45，49]，例如MobileNet [29]和ShuffleNet [49]，也可以实现加速。知识蒸馏。KD的核心思想是将有意义的知识从笨重的老师转移到更小更快的学生身上。最新的KD冰毒-···12321h，wh，w∈n=1n=1关于我们n=1n=1∈∈KD∈{···}高×宽不不任务高×宽从老师那里得到的。蒸馏过程的公式为：IJp2pIJ一ττ1Σ Σ--{∈}×A stODS处理图像分类网络，主要分为基于概率、基于特征和基于关系的方法。基于概率的KD [16，52]将教师产生的类概率作为软标签转移到学生身上。基于特征的KD专注于中间特征图[28]或其作为知识的精炼信息[15，基于X的KD [10，25，27，32，42，44]调整多个信息之间的相关性或依赖性，学生和教师网络之间的关系。我们的CIRKD与SEED[10]相关，它们都是具有共享内存库的对比蒸馏方式。然而，这些图像级KD方法通常不适合逐像素语义分割[18，22]。最近用于语义分割的KD方法通常将上下文像素亲和力编码为知识。Xie等人。 [40]对齐由学生和教师网络之间的8个邻域像素构建的局部相似性映射。Heet al.[14]使用自动编码器传输非局部成对亲和映射，以最大限度地减少特征的差异 Liu等人[20，22]执行像素之间的成对相似性蒸馏和得分图的对抗性蒸馏。Wangetal. [35]提取类内特征变化，以学习与类原型的更强大的关系。除了空间蒸馏，Shu et al. [30]提出通道式蒸馏，引导学生沿着通道维度模仿教师的语义面具。尽管实现了期望的性能，但这些方法仅考虑单个图像内的像素依赖性，忽略了跨各种图像的全局像素关系。3. 方法3.1. 初步语义分割框架的符号。与传统的图像分类不同，语义分割是一个逐像素的密集分类任务。分割网络需要将图像中的每个像素分类到C类中的单个类别标签该网络可以分解为特征提取器和分类器。前者生成稠密特征图FRH×W ×d，其中H、W和d表示变化的高度、宽度和数量，nels，分别。我们可以推导出H×W像素嵌入像素级概率蒸馏。受Hinton的KD [16]的启发，一种直接方法是将每个像素的类概率分布从学生到教师对齐。该制剂表示为：HWZsZtL=KL（σ（h，w）||σ（h，w））。（二）h=1w=1这里，σ（Zs/T）和σ（Zt/T）分别表示从学生和教师产生的第（h ，w）个像素的软类概率。 KL表示Kullback-Leibler散度，T是温度。根据以前的工作[20，35]，T=1就足够好了。3.2. 跨图关系知识提取动机虽然Ltask和Lkd的训练目标在语义分割中被广泛使用，但它们仅独立地处理像素间的预测，而不处理像素间的语义关系。一些分割KD方法[14，20，35]试图通过对像素亲和力进行建模来捕获空间关系知识然而，这些KD方法仅构建单个图像内的像素之间的关系，而不管全局图像中的像素之间的语义依赖性。本文论证了跨图像关系知识对于开展师生知识共享也是有价值的。我们的CIRKD使用了超出单个图像的像素嵌入。受最近基于记忆的对比学习[6，31，34，38]的启发，我们可以从当前的小批量或在线记忆库中检索其他图像的像素嵌入。本文考虑了两种方式来建模像素之间的关系，其细节如下所示3.2.1基于小批量的像素间蒸馏给定一个小批量xnN，分割网络从N个输入图像中提取N个结构化特征图FnRH×W ×d N 我们预处理每个像素嵌入-用l2-正规化方法确定Fn 为了便于记法，我们将{Fn∈RH×W×d}N的空间维数重新整形为沿着空间维度。后者进一步将F变换为范畴logit映射ZRH×W ×C。传统的分割任务损失是使用交叉熵训练每个像素及其地面真实标签：FnRA×dN ，其中A=HW. 对于第i个图像xi和第j个图像xj，i，j一二，N，我们可以计算跨图像成对相似性矩阵Sij=FiFTjRA×A。关系矩阵Sij捕获像素之间的交叉图像成对相关性。HW我们引导Ss产生的成对相似性矩阵L=1σ（Zh=1w=1），y）的情况。（一）IJ从学生的角度来调整t这里，CE表示交叉熵损失，σ表示softmax函数，yh，w表示地面实况标签第（h，w）个像素的L（Ss，St）=1<$KL（σ（Sij|a，：）||σ（Sij|a，：））。（三）a=1h，wh，w12322Qnnnnk=1k=1∈KP{∈}Q老师教师像素嵌入教师像素间相似度矩阵教师像素-区域相似性矩阵区域掩模区域掩模区域掩模GAPGAP GAP图像入队…像素队列入队…教师区域嵌入区域队列知识调整样本样本学生像素到区域相似性矩阵学生像素嵌入学生学生像素间相似性矩阵：逐元素乘法全球平均池：点积图2.概述了我们提出的基于内存的像素到像素蒸馏和像素到区域蒸馏。给你，小希|表示Sij的第a行向量。我们用softmax函数σ将Sij的各行相似分布归一化为一个具有温度τ的概率分布。由于softmax归一化，学生和教师网络之间的幅度差距将被消除KL用于对齐每个逐行概率分布。我们每两个N个图像执行像素到像素的蒸馏：NN在密集分割任务的上下文中，每个图像将包含大量的像素样本，并且同一对象区域中的大多数像素通常是同质的。因此，存储所有像素嵌入可能会学习冗余的关系知识并减慢提取过程。此外，将若干最后批次保存到队列也可能损害像素嵌入的多样性。因此我们维护类感知像素队列Qp∈RC×Np×d，L= 1μL（Ss，St）。（四）其中，Np是每个类的像素嵌入的数量，d批处理p2pN2i=1j=1p2pij ij是嵌入大小。对于小批量中的每个图像，我们仅随机采样一个小数目，即V（VNp），或我们在补充中展示了基于小批量的像素到像素蒸馏的说明3.2.2基于存储器的像素到像素蒸馏虽然基于小批量的提取可以在一定程度上捕获跨图像关系，但是难以对来自全局图像的像素之间的依赖性进行建模，因为像素嵌入，并将它们推入像素队列P。随着蒸馏的进行，队列在“先进先出”策略下逐渐更新受[10]的启发，我们在学生和教师网络之间采用共享像素队列，并在蒸馏过程中存储教师生成的给定输入图像xn，生成的像素嵌入-分割任务的每个GPU的批量大小通常很小，例如学生和教师网络的dings是F∈RA×d1或2为了解决这个问题，我们引入了一个在线像素队列，可以在和FtRA×d。Fs的每个像素嵌入对Ft进行l2-归一化预处理。我们认为F从过去的小批量中生成的内存库。它-nftn作为锚点和样本Kp对比嵌入使我们能够有效地提取丰富的嵌入。记忆库的使用可以追溯到自我监督学习[31，38]。这是因为大量的负样本对于无监督对比学习是关键的，并且小批量大小限制了可用的对比样本。VK研发KP从像素队列中随机地p. 在这里，我们采用类平衡采样，因为来自各种类的像素的数量通常符合长尾分布。为了便于记法，Vp=[v1，v2，···，vKp] ∈RKp×d是{vk}沿行维的级联，12323QQQQQQ∈QQQ∈k=1Rnk=1pnpnRnR内存p2r一τ--τnn∈∈···∈{∈}Q×锡永然后，我们将锚点与学生和教师的对比嵌入之间的像素相似性矩阵建模为Ps和Pt：Ps= FsVT∈ RA×Kp，Pt= FtVT∈ RA×Kp.（五）算法1跨图像关系KD（CIRKD）初始化像素队列p和区域队列r随机的单位向量虽然学生网络尚未融合，小批量取样教师网络通常显示出比学生更好的像素相似性矩阵我们强迫学生与第3.2.1节类似，我们对Ps和Pt的每行分布应用softmax归一化，并通过KL发散损失执行像素到像素的归一化。其公式如下：生成学生和教师像素嵌入。计算基于mini-batch的像素间重叠损失Lbatchp2p。对比像素和区域嵌入示例，像素队列P和区域队列R。计算基于内存的像素到像素损失Lmemoryp2p和像素到区域损失Lmemoryp2rAs tL=1<$KL（σ（Pa，：）||σ（Pa，：））。（六）更新学生的整体损失L CIRKD。内存p2pA τ τa=1使当前教师像素和区域嵌入排队-Qp和Qr。在每次迭代之后，我们将每个类的V个教师像素嵌入推入像素队列p中。因为老师是预先训练和冻结的，所以它可以在蒸馏过程中提供一致的特征嵌入。因此，我们可以自然地避免在以前的对比学习中出现的锚和出队特征之间的不一致问题[12，17，33]。3.2.3基于记忆的像素到区域蒸馏离散像素嵌入可能不完全捕获图像内容。因此，我们引入了一个在线区域队列，可以存储大量更有代表性的区域嵌入在存储库中除了像素到像素的蒸馏，我们进一步构建像素到区域的蒸馏来建模像素和跨全局图像的逐类区域嵌入之间的关系。每个区域嵌入表示图像中一个语义类的特征中心我们制定的区域嵌入类C平均池的所有像素嵌入属于类C在一个单一的图像。我们维护一个区域队列RRC×Nr×dduring蒸馏过程，其中N r是每个类的区域嵌入数，d是嵌入大小。对于每一次迭代，我们采样Kr对比区域嵌入- dings rkRdKr从r在类平衡的方式。为了便于记法，Vr=[r1，r2，，rK]RKr×d是rKKr沿行维的级联。给定一个输入图像xn，我们根据Fs对像素到区域的相似性矩阵进行建模RA×d和FtRA×d到区域嵌入-将Vr定义为Rs和Rt：Rs= FsVT∈ RA×Kr，Rt= FtVT∈ RA×Kr. （七）从p和r中取出最早的像素和区域嵌入。end while对于每个小批，我们将所有教师区域嵌入推入区域队列r。我们提出的基于记忆的蒸馏的概述如图所示。二、3.3. 总体框架我们总结了我们的基于小批量的像素到像素，基于内存的像素到像素和像素到区域的训练，一起训练学生网络。我们还采用传统的逐像素交叉熵任务损失L任务（方程）。(1))和类概率KD损失Lkd（Equ. (2))作为基本损失。总损失公式如下：LCIRKD=Ltask+Lkd+αLbatchp2p+βL记忆p2p+ γL记忆p2r。（九）这里，α、β和γ是权重系数。我们设α=1，β=0。1且γ=0。1.一、经验上，我们发现当α，β，γ[0. 1，1]。当学生和教师网络的嵌入大小不匹配时，我们将投影头附加到学生网络。它可以映射学生的像素嵌入以匹配教师的维度。投影头由具有ReLU和批量归一化的两个11卷积层它将在推理阶段被丢弃，而不会引入额外的成本。在算法1中，我们使用伪代码来说明CIRKD的整个训练流水线.类似于Equ。(6)，我们通过KL发散损失提取学生和教师网络之间的归一化像素到区域相似性矩阵：As t4. 实验4.1. 实验装置数据集。我们采用三个流行的语义段-L=1<$KL（σ（Ra，：）||σ（Ra，：））。（八）a=112324数据集来进行我们的实验。（1）城市景观[7]是一个城市场景解析数据集，包含5000精细12325总iter−××××注释图像，其中2975/500/1525个图像用于训练/验证/测试。分段性能报告19类。(2)CamVid[1]是一个自动数据集，包含367/101/233张图像，用于11个语义类的训练/验证/测试。(3)Pas- cal VOC[9]是一个视觉对象分割数据集，包括20个前景对象类别和一个背景类。我们采用了文献[11]提供的带有额外注释的增广数据。生成的数据集包含10582/1449/1456张用于训练/验证/测试的图像。评估指标。在标准设置之后，我们采用平均交集对并集（mIoU）来衡量分割性能。网络架构。对于所有实验，我们使用具有ResNet-101（Res 101）主干[13]的分割框架DeepLabV 3 [5]作为强大的教师网络。对于学生网络，我们使用各种分割架构来验证蒸馏方法的有效性具体而言，采用了具有ResNet-18（Res 18）和MobileNetV 2（MBV 2）[29]不同主干的DeepLabV 3和PSPNet [51]。培训详情。在标准数据扩充之后，我们在[0. 5、2]。所有实验均通过SGD优化，动量为0.9，批量大小为16，初始学习率为0.02。总训练迭代次数为40K。学习率衰减（1iter）0。9遵循多项式退火策略[4] 。对于训练阶段的裁剪大小，我们分别为Cityscapes 、CamVid 和Pascal VOC 使用512 1024、360 360和512 512评估详情。我们按照一般方案[30]，在原始图像大小上，在单一尺度设置下评价分割性能。比较蒸馏方法。我们将我们提出的CIRKD与最先进的分割蒸馏方法进行比较：[20][21][22][23][24][25][26][27][28][29][我们使用作者提供的代码重新运行所有方法。所有方法都使用相同的预训练老师DeepLabV 3-ResNet 101。超参数设置超参数主要来自像素和区域队列。对于像素队列，我们设置N p=20K（每个类和入队）对于每个图像，V=每类16个像素。为该地区队列，我们为每个类设置Nr=2K。对于每个小批量，我们从像素队列中采样Kp=4096个像素嵌入，从区域队列中采样Kr=1024个区域嵌入，以计算相似性矩阵。4.2. 实验结果4.2.1Cityscapes的结果在表1中，我们在验证和测试mIoU性能方面将我们提出的CIRKD与Cityscapes上最先进的蒸馏方法进行了我们可以观察方法参数（M）FLOPs（G）MiouVal（%）测试T：DeepLabV3-Res10161.1M2371.7G78.0777.46产品编号：DeepLabV3-Res 1874.2173.45+SKD [20]75.4274.06+IFVD [35]13.6M572.0G75.5974.26+CWD [30]75.5574.07+CIRKD（我们的）76.3875.05S：DeepLabV3-Res18*65.1765.47+SKD [20]67.0866.71+IFVD [35]13.6M572.0G65.9665.78+CWD [30]67.7467.35+CIRKD（我们的）68.1868.22产品编号：DeepLabV3-MBV 273.1272.36+SKD [20]73.8273.02+IFVD [35]3.2M128.9G73.5072.58+CWD [30]74.6673.25+CIRKD（我们的）75.4274.03S：PSPNet-Res1872.5572.29+SKD [20]73.2972.95+IFVD [35]12.9M507.4G73.7172.83+CWD [30]74.3673.57+CIRKD（我们的）74.7374.05表1.在Cityscapes上的各种学生细分网络上与最先进的计算方法进行性能比较。* 表示我们不使用ImageNet [8]预先训练的权重初始化主干。FLOP是基于1024 2048的固定大小测量的。粗体数字表示每个块中的最佳结果。我们把老师标记为T，把学生标记为S。所有结构化KD方法都能在教师的监督下改善学生网络。CIRKD在具有相似或不同架构风格的各种学生网络中实现了最佳分割性能。它揭示了CIRKD不依赖于特定于体系结构的线索。此外，我们的方法优于最好的完成CWD，在四个学生网络中平均获得0.60%的验证mIoU增益和0.78%的测试mIoU增益。结果表明，提取跨图像关系指导学生实现比图像内像素亲和度更好的分割性能[20，35]。如示于图3，我们还显示了单个班级IoU分数在学生网络上的表现。我们可以观察到，我们的CIRKD实现了比基线（w/o蒸馏）和CWD更好的类IoU分数，特别是对于那些IoU分数较低的类别。例如，我们的方法获得了10.4%和9.4%的相对改善壁比基线和CWD，分别。我们进一步在图中直观地示出了定性分割结果。4.我们可以观察到，与基线和CWD相比，我们的CIRKD产生了与地面实况更一致的语义标签，这表明捕获了更有意义的像素依赖性。通过CWD和我们提出的CIRKD在学生网络上学习特征嵌入的 T-SNE 可视化示于图 5. 与 CWD 相比，CIRKD训练的网络显示出结构良好的逐像素语义特征空间。直观的结果表明学习-123261009080706050图3.学生网络DeepLabV 3-ResNet 18上各个班级IoU分数的图示，基线（无蒸馏），最先进的CWD和我们在Cityscapes测试集上提出的CIRKD。与基线和CWD相比，我们的CIRKD可以持续提高单个班级的IoU分数，特别是对于那些具有低IoU分数的挑战性班级。(a) 最先进的CWD [30]。（b）我们的CIRKD。图5.在使用CWD（左）和我们提出的CIRKD（右）训练的DeepLabV 3-ResNet 18网络上，Cityscapes验证集上的学习特征嵌入的T-SNE可视化（a）图像（b）学生（c）CWD（d）我们的（e）GT图4.使用DeepLabV 3-ResNet 18网络对Cityscapes验证集的定性分割结果：（a）原始图像，（b）没有KD的原始学生网络，（c）通道蒸馏，（d）我们的方法和（e）地面实况。来自教师网络的交叉图像像素关系将帮助学生获得更好的类内紧凑性和类间可分离性，从而提高分割性能。表2.在CamVid上的各种学生细分网络上与最先进的蒸馏方法进行FLOPs是基于360×480的测试尺寸测量的。4.2.3Pascal VOC4.2.2CamVid上的结果在表2中，我们评估了CamVid上的各种蒸馏方法。我们的 CIRKD 实现了最佳的性能 consideration 。它比DeepLabV3和PSPNet的最新CWD表现出除了场景解析数据集，我们还评估了我们的CIRKD的Pascal VOC，一个代表性的视觉对象分割数据集。如表3所示，与其他分割KD方法相比，CIRKD实现了最佳性能。它超过了最好的完成CWD 0.48%和0.79%的mIoU改进DeepLabV3和W/O蒸馏CWD我们的方法Cityscapes测试集方法参数（M）FLOPs（G）检测mIoU（%）T：DeepLabV3-Res10161.1M280.2G69.84产品编号：DeepLabV3-Res 1866.92+SKD [20]67.46+IFVD [35]13.6M61.0G67.28+CWD [30]67.71+CIRKD（我们的）68.21S：PSPNet-Res1866.73+SKD [20]67.83+IFVD [35]12.9M45.6G67.61+CWD [30]67.9212327Miou成本×75.0074.7574.5074.2574.0073.7573.505K 10K 20K30K每个类的800600400200075.0074.7574.5074.2574.0073.7573.50706050403020100.5 K 1K 2K 3K0每个类的(a) 每类像素队列大小Np（b）每类区域队列大小Nr表3.在Pascal VOC上的各种学生分割网络上与最先进的蒸馏方法进行性能比较我们基于512 512的裁剪大小报告FLOP，因为验证集没有固定的输入大小。图6.（a）每个类的像素队列大小Np和（b）每个类的区域队列大小Nr对Cityscapes值的影响。“Memory Cost”表示占用的GPU内存大小。75.575.074.574.0表4.城市景观中蒸馏损失项的烧蚀研究Val.基线表示交叉熵损失L任务（等式1）。① ①）。73.50.050.10.51.0(a) 温度τ102420484096 8192(b) 基于像素的Kp2565121024 2048(c) 基于区域的KrPSPNet，分别。结果表明，我们的CIRKD的可扩展性相当不错的工作在视觉对象分割。4.3. 消融研究和参数分析我们进行彻底的消融实验，我们提出的CIRKD上的Cityscapes验证集，语义分割的标准基准。对于所有实验，我们默认选择DeepLabV 3-ResNet 101作为老师，DeepLabV 3-MobileNetV 2作为学生。损失项的消融研究。如表4所示，我们检查了每种蒸馏损失的贡献。常规KD损失Lkd使基线提高1.14%。应用L批次p2p的跨图像关系KD损失，L记忆p2p和L记忆p2r分别导致0.61%、0.85%和0.68%的mIoU增益分别超过Lkd。结果得出两个结论：（1）像素到像素的蒸馏比像素到区域的蒸馏信息量更大。(2)基于内存的像素到像素的提取比基于小批量的提取更好，因为前者可以从比后者多得多的图像中捕获更广泛的像素依赖性。最后，将所有损失一起应用，最大限度地提高了细分性能，将学生和教师之间的差距从4.95%减少到2.65%。队列大小的影响。我们调查的像素队列和区域队列的内存大小的影响。如图6、随着像素队列和区域队列的大小的增长，提取性能增加。这是因为更大的队列可以提供更丰富和更多样化的嵌入来捕获长距离依赖关系。图7.（a）温度τ和（b）对比像素嵌入的数量Kp和（c）对比区域嵌入的数量Kr对Cityscapes val的影响。实验结果还表明，在一定的存储容量下，蒸馏性能也可能温度τ的影响。温度τ用于校准相关KD的相似性分布。更显著的温度τ带来更平滑的分布。如图7a，我们研究了τ在CIRKD中的影响，发现τ=0。1是最好的选择。对比嵌入数量的影响。如图7b和图7c，我们检查数字对比嵌入来计算像素到像素和像素到区域的相似性矩阵。随着Kp和Kr的增加，蒸馏性能增加，因为具有更大维度的相似性分布将编码更广泛的像素依赖性。蒸馏性能的上界-对于像素到像素的蒸馏，芒可以在Kp=4096处饱和，对于像素到区域的蒸馏，芒可以在Kr=1024处饱和5. 结论本文提出了一种新的跨图像的关系KD传输全局像素相关性从教师到学生的语义分割。与以前的KD方法相比，我们的方法可以帮助学生学习更广泛的像素依赖于教师。在公共分割数据集上的实验我们希望我们的工作可以启发未来的研究，以探索全局像素关系分割KD。Miou成本Cityscapes值Cityscapes值内存成本（MB）Cityscapes值内存成本（MB）方法参数（M）FLOPs（G）Val mIoU（%）T：DeepLabV3-Res10161.1M1294.6G77.67产品编号：DeepLabV3-Res 1873.21+SKD [20]73.51+IFVD [35]13.6M305.0G73.85+CWD [30]74.02+CIRKD（我们的）74.50S：PSPNet-Res1873.33+SKD [20]74.07+IFVD [35]12.9M260.0G73.54+CWD [30]73.99损失基线蒸馏Lkd-CCCCCCL批次p2p--C---CL内存p2p---C-CCL内存p2r----CCCmIoU（%）73.1274.2674.8775.1174.9475.2675.4212328引用[1] Gabriel J Brostow，Jamie Shotton，Julien Fauqueur，andRoberto Cipolla.利用运动点云的结构进行分割和识别。欧洲计算机视觉会议，第44-57页。Springer，2008.[2] 蔡林航，安竹林，杨传光，严阳春先验梯度掩码引导的修剪感知微调。在AAAI人工智能会议上，2022年。[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议上，第248-255页。IEEE，2009年。[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[10] Zhiyuan Fang ， Jianfeng Wang ， Lijuan Wang ， LeiZhang，Yezhou Yang，and Zicheng Liu.种子：用于视觉表示的自监督蒸馏。ICLR，2021年。[11] Bharat hHariharan，PabloArbela' ez，LubomirBourdev，Subhransu Maji，and Jitendra Malik.从反向检测器的语义轮廓2011年国际计算机视觉会议，第991-998页。IEEE，2011年。[12] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] Tong He ， Chunhua Shen ， Thi Tian ， Dong Gong ，Changming Sun，and Youliang Yan.知识适应有效的语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第578-587页[15] Byeongho Heo 、 Jeesoo Kim 、 Sangdoo Yun 、 HyojinPark、No- jun Kwak和Jin Young Choi。对特征提取的全面检修。在IEEE/CVF国际计算机视觉会议论文集，第1921[16] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[17] 胡汉哲，崔进士，王立伟用于语义分割的区域感知在IEEE/CVF计算机视觉国际会议论文集，第16291-16301页[18] Quanquan Li，Shengying Jin，and Junjie Yan.模仿非常有效的网络进行对象检测。在IEEE计算机视觉和模式识别会议论文集，第6356-6364页[19] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在IEEE计算机视觉和模式识别会议论文集，第1925-1934页[20] Yifan Liu ， Ke Chen ， Chris Liu ， Zengchang Qin ，Zhenbo Luo，and Jingdong Wang.结构化知识提炼用于语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第2604-2613页[21] Yifan Liu，Chunhua Shen，Changqian Y

下载后可阅读完整内容，剩余1页未读，立即下载