基于类相似度加权的知识提取连续语义切分

6 浏览量更新于2023-10-25 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

16866基于类相似度加权的知识提取连续语义切分Minh Hieu Phan1，The-Anh Ta2，Son Lam Phung1，3，Long Tran-Thanh4，AbdesselamBouzerdoum1，5，1伍伦贡大学，2FPT软件，AIC，3VinAI研究，4华威大学，5哈马德本哈利法大学，vmhp806@uowmail.edu.au，anhtt71@fsoft.com.vn，{phung，a.bouzerdoum} @ uow.edu.au，long. warwick.ac.uk摘要众所周知，深度学习模型在增量学习新类时会遇到灾难性遗忘语义分割（CSS）的持续学习是计算机视觉中的一个新兴领域。我们在CSS中发现了一个问题：一个模型往往会在视觉上相似的新旧类之间混淆，这会使它忘记旧的类。为了解决这个问题，我们提出了REMINDER -一个新的CSS框架和一个新的类相似性知识蒸馏（CSW-KD）方法。我们的CSW-KD方法提取了与新类相似的旧类上的复杂模型的知识。这提供了两个主要好处：（i）有选择地修改更容易被遗忘的旧类，以及（ii）通过将新类与以前看到的类相关联来更好地学习新类。在Pascal-VOC 2012和ADE 20 k数据集上进行的大量实验表明，我们的方法在标准CSS设置上的性能比最先进的方法高出7。07%，8。分别为49%1. 介绍语义分割是计算机视觉中的一项基本任务，其目的是将图像中的每个像素分配到其语义类别。分割模型对许多现实世界的应用至关重要，例如自动驾驶汽车[1，17]和医学图像诊断[14，40]。在大多数实际情况下，模型需要不断学习新数据，适应运行环境的变化然而，不断学习新课程会导致对旧知识的灾难性遗忘[12，34]。换句话说，新重新训练的模型在旧任务上的性能显著下降语义分割（CSS）的持续学习研究最近才出现在医学成像[27，28]和一般场景理解[2，9]中。除了遗忘，CSS还面临着背景移位的问题，(a) 动物组（b）溶媒组图1.当模型学习新类别时，（a）动物和（b）媒介物组中旧类别的性能下降（遗忘程度）。我们的方法在学习一个新的类似类时忘记得更少。来自先前步骤的对象类被移动到当前步骤的背景[2]。在持续学习中，有两个主要的问题会导致灾难性的失败.首先，该模型对新类有很强的偏见[36]。换句话说，旧类的对象被错误地预测为新类。第二，模型倾向于忘记那些在视觉上与新添加的类相似的旧类。为了研究这个问题，我们将Pascal-VOC 2012数据集中的类分为两组：动物和载体，并评估各组中的形成程度。图1显示了当模型学习一个新类时，每个组中的性能下降1当模型学习绵羊时，动物组的表现下降最多。同样，车辆组在学习训练时的结果降低最多。最近的CSS方法[2，9，23，24]将旧类上的先前模型的知识提取到当前模型中。知识蒸馏可以防止模型偏离先前学习的内容。这种持续学习范式因其计算效率而受到广泛关注。它们不需要存储旧类的样本来重新学习旧知识。尽管最近1性能下降衡量模型在学习新类时mIoU下降的百分比（%）。16867成功，基于现代蒸馏的方法[2，23，24]平等地蒸馏了所有旧类的知识，即使有些类比其他类更容易被遗忘。他们可能不太重视修改受影响的旧知识。这种忽略使得模型更容易忘记视觉上相似的旧类。针对目前的研究空白，提出一种新的类相似度加权知识提取方法。我们的CSW-KD强调复习那些容易被遗忘的旧课程的知识，即，与新类相似的类特别是，当学习一个新类时，所提出的方法计算其与旧类的相似性。然后，它会根据旧类的相似性得分，重新权衡先前模型对旧类的预测。将类相似度加权知识提取到当前模型中。所提出的方法有三个好处。首先，我们的方法在学习新的视觉上相似的类时对遗忘更具弹性（如图所示）1）。该模型识别出更有可能被遗忘的旧类组，即，一个新类所属的组。然后，它有选择地加强这个群体的知识。其次，我们的方法可以更好地学习新任务。通过CSW-KD，我们强制模型捕获类之间的相似性。因此，它可以将新的知识与以前学到的知识联系起来。然后，该模型将之前学习到的内容转移到新类的学习中。第三，关于类相似性的先验知识使模型能够学习底层的类层次结构。使用这种学习的知识结构，模型可以识别出受影响的旧知识组。我们介绍REMINDER-一个CSS框架，由两个组件组成首先，类相似性加权知识蒸馏（CSW-KD）将旧模型的输出基于它们的相似性重新加权到新类。第二，特征知识提取（FKD）模块提取先前模型的特征，以鼓励不同任务之间的特征重用。我们的主要贡献可归纳如下。• 我们建议使用类之间的语义相似性作为持续学习的先验。据我们所知，这是第一个探索分层学习以减少CL中灾难性遗忘的工作• 我们提出了一种新的CSW-KD方法，该方法利用类相似性来减少相似的旧类的遗忘（刚性）并促进新类的学习（可塑性）。然后，我们提出了提醒-一个CSS框架，使用CSW-KD提醒模型的旧知识的基础上，新的和旧的类之间的相似性。• 我们表明，我们的方法实现了更好的刚性-塑性权衡强基线通过广泛的实验。REMINDER的性能优于最先进的Pascal-VOC 2012和ADE 20 k数据集上的方法最多可提高7. 07%，8。百分之四十九2. 相关工作不断学习。为了减少遗忘，流行的持续学习方法可以分为四种主要方法。首先，正则化技术旨在对网络的权重应用惩罚约束其次，基于重放的方法建议存储来自旧类的一部分数据或从先前的任务生成训练数据[6，33]。然后，模型在新旧数据的混合上进行训练。第三，动态架构要么为新任务增长新分支，要么为特定任务重新安排子网络[19，37]。第四，参数隔离方法在其自己的不同权重子集上训练每个任务，以保持旧任务的模型性能[20，32]。最近的一项神经科学研究调查了新知识如何整合到新皮质样网络中[22]。他们的实验表明，神经网络隐式地学习一个层次结构。当学习新类时，模型将它们投影到已知分支上，或者在层次结构中创建一个新值得注意的是，在同一个分支中将旧项受这项研究的启发，我们的方法学习类层次结构，并有选择地修改与新项目类似的旧项目。我们的选择性知识复习提高了对新课程的学习，减少了对旧课程的遗忘。连续语义分割。在[23]中首次提出了用于一般语义分割任务的持续学习的通用框架，该框架使用来自先前任务的模型的输出和特征空间的蒸馏损失来训练新任务。除了catas- trophic遗忘，CSS还面临着[2]中首次指出的背景迁移问题.最近的方法[2，9，24]采用CSS的知识表示技术。MiB [2]中提出的无偏知识分解（UNKD）方法允许旧模型将背景像素预测为当前任务中的新类别之一。局部合并输出蒸馏（局部POD）是PLOP [9]中提出的最新技术水平。局部POD在训练步骤中提取远程和短程空间关系，以保留CSS的多尺度信息。稀疏分解表示（SDR）是一种最新的方法，它应用原型匹配和对比学习来提高CSS的特征鲁棒性[24]。当代作品[16，21，39]已经为CSS开发了半真半假算法提出生成合成图像，并将其添加到新任务的训练数据中，以提醒模型关于旧类[16]。RECALL使用生成对抗网络16868LLLL◦联系我们我|我|实验Zi，c×CCC−不i，c1：t−11ΣΣt−1t图2. 提醒的概述。该模型通过三个损失目标（黄色）进行训练：（i）标签的交叉熵损失CE，（ii）特征知识蒸馏（FKD）损失fkd，以及（iii）类别相似性加权知识蒸馏（CSW-KD）损失csw-kd。当一个模型学习一个新的类时（即，sofa），我们的CSW-KD基于它们的相似性得分S对旧类的预测得分进行加权，所以，A。然后，它通过CS W -KD loss L csw-k d将r e加权输出Ot−1提取到当前模型。和网络抓取的数据，以从旧类中重新生成新样本，用于训练新任务[21]。另一种方法[39]提出了CSS的期望最大化框架，它结合了重新标记和基于重放的方法。基于原型的方法。基于原型的方法最初被提出用于少量学习[8，35]和域适应[6，29，38]。他们提取类的原型来提取每个类的一般知识或鼓励类之间的正交性。最近的CSS方法，如SDR [24]和PIFS [3]使用原型来正则化功能，以减少对旧类的遗忘它们强制功能保持接近当前任务中相比之下，我们的方法-提取特征和用于产生分割图的解码器Dt。编码器经由L个层ft（. ），其中l1，. . .，L.解码器从编码器的特征中学习高级特征，并输出logit映射Z t = D t E t（X t）。在Zt上应用softmax函数以给出分割图Ot。重温知识蒸馏损失。为了避免存储旧数据，应用蒸馏损失[15]将旧模型fθt的知识转移到新模型。每个图像都有一组基数=HW的像素。蒸馏损失公式为：HWLkd= −OlogO，（1）在不同的任务中划分原型，以识别可能被遗忘的类。HWi=1c∈C1：t−1不i，ci，c其中Oi，c由fθt给出，表示类c在步骤t像素i中。这里，输出Ot由re定义3. 方法3.1. 问题定义和背景问题定义。连续语义分割目标在前一步骤Ct-1中对所有类别的logitZt进行归一化：如果c∈Ct\b，在T步中训练分割模型而不会忘记。在步骤t中，我们给出一个数据集Dt，它包括一个集合，k∈CexpZtc∈ C。其中，Xt是大小为H W的图像，Yt是地面实况分割图。这里，Yt仅由当前类t中的标签组成，而所有其他类（即，旧类1：t-1或未来类t+1：T）被分配给当前背景类cb。在持续学习中，步骤t的模型应该能够预测历史中的所有类别C1：t分割模型fθt由编码器Et组成，Eq.中的蒸馏损失 1鼓励模型f θt在步骤t产生与模型fθt−1在步骤t1相似的输出。这强制f θt的参数保持接近fθt−1找到的用于标记先前类别的像素的解。3.2. 拟议的REMINDER框架我们首先使用交叉熵损失训练模型fθ0来识别属于初始类别C0的的i，cOti， =如果（二）16869我C我HWi，cΣi，vi，vL0，否则。对于非背景像素i，我们复制地面实况la-|.|.构造了一个原型映射Mt=[mt]∈RHW×C我v0，如果yi∈C1：t−1和Si，vδ，∈ P∈在前一步训练的模型fθt-1被冻结。它的知识用于在步骤t正则化当前模型f θt。图2说明了我们提出的提醒框架。我们的方法使用三种损失来训练分割模型：i）来自标签的交叉熵损失，ii）来自编码器特征的编码器知识蒸馏损失Et−1，以及iii）前一个模型fθt−1的输出Ot− 1的类相似性加权损失。来自地面真值和伪值的交叉熵损失标签在CSS中，属于先前类的像素在当前步骤中成为背景. 为了解决这个背景偏移问题，我们使用先前模型f θt−1的预测为背景像素生成伪标签。该模型是在组合的地面真值Y* t上训练的，该组合的地面真值Y * t包括当前类的标签和所有先前类的伪标签。在这里，Yt被公式化为：宽度和通道尺寸。局部POD [9]是POD的扩展，它概括了不同尺度的局部区域的特征我们使用局部POD作为汇总函数Θ（. ）来捕获多尺度信息，这对于语义分割是有效的。类相似度加权知识蒸馏损失。我们的CSW-KD方法修改了更容易被遗忘的旧知识，即，与新类在视觉上相似的类。我们建议重新权衡预测-通过类相似性得分S，在新像素上的先前模型的t-1次。重新加权的输出被提炼为当它学习一个新的类时，它会更新当前模型。这允许模型同时重新学习更容易被遗忘的旧类，并捕获新类和旧类之间的语义关系。对于每个像素i及其实际的新类别u，我们重新加权Ot−1，旧类v的先前模型的输出1，如果YtY=0且c=argmaxYt′，i，ci，ci，v的像素 i，通过新类u和旧类u之间的相似性，~ti，c =1，如果Ytc′∈Ct=1且c=argmaxOt−1，c′∈C1：t−1（三）第五类。设P t RU ×C和t−1RV×C分别为表示U的两组C维原型向量新类和所有V个旧类，其中U = |Ct|和V =我从Yt。对于背景像素i，我们使用输出Ot-1其中每个像素i包含原型向量mt=pti，ci，c基于分割图中的像素标签yi。在这里，以前的模型。当古老的脚步的预言可能是不正确的，使用这些预测作为伪LA-类C是像素i的标签yi，其中i = 1，2，.，HW。HW×V贝尔会降低当前模型的性能。我们然后我们计算一个相似性映射S∈R之间采用[9]的做法来分配Y=0时，uncer-每个像素i中的新类的原型mt和pro-m t。像素污染属于分类i，cpt−1∈ Pt−1是旧类v的一种类型。每个条目si，v是i c大于某个vt−1阈值更多细节见[9]。从伪标签的交叉熵损失公式化mi和pv之间的余弦相似性：mi·pt−1由Si，V=HWvm.（六）LCE= −λ特岛c logOt 、（四）相似度图被归一化以反映概率像素i处的新类别yi类似于旧类别v。的i=1c∈C1：t其中λ表示接受的旧类的百分比归一化相似性映射S_n被定义为表达式si，v在所有旧类像素上高于确定性阈值的像素特征的蒸馏损失。当模型的特征与之前的学习结果出现偏差时，si，v=Vj=1 表达式si，j.（七）遗忘发生了。最近的工作[9，25]提取了以前模型的特征，以减少这种特征发散问题。在这里，我们推广了以前的方法，并介绍了一个特征知识蒸馏。特征蒸馏损失被公式化为L我们的CSW-KD方法首先选择更容易被遗忘的旧类v。然后提取它们的输出Ot−1由相似性得分Si，v加权，其中n∈ wy级岛我们过滤掉相似度得分Si，v小于某个阈值δ的旧类v。加权输出Ot−1定义为Σ。.2LL2l=1i，vL fkd=. Θ（f t（X t））−Θ（f t−1（X t））。、（五）t−1哪里f t（. ）是网络中的第l层Mt，以及Θ（. ）是Oi，v=塞里河Ot−1，如果yi∈Ct.（八）i、c和bi、c和bY.168701概括所述特征图的空间统计的函数总结函数Θ（. ）导致不同的FKD策略。例如，合并输出蒸馏（POD）[10]总结了整个高度的特征，在这里，我们根据旧类的总数设置阈值δ| C1：t−1|：δ= |C1：t−1|-是的（九）16871z[y=c]iiB ∈P∈CCCi，ci，cCS W-KD方法将加权输出Ot−1提取到当前模型：HW类（19-1设置2个步骤），增加5类，所有在15节课训练后立即进行（15-5设置，2步），在15节课训练后依次增加5节课Lcsw-kd=−Σ ΣO˜t−1logOt.（十）类（15-1设置6个步骤）。对于ADE 20k数据集，我们执行了四个不同的实验：培训后增加50班，100班通过CSW-KD，当前模型fθt学习重新加权的输出Ot−1，并因此捕获嵌入Ot−1 中的类相似性得分 S。学习这种语义相似性有两个好处。首先，该模型可以将新类与以前学习的内容联系起来，从而转移旧知识以更好地学习新类。其次，它鼓励模型隐式地学习底层的类层次结构。最后，合并损失定义为L=Lce+α1Lfkd+α2Lcsw-kd，（11）其中，α1和α2表示每个项的权重，这些权重经过微调以找到最佳性能。原型计算。我们通过计算logits ZRH×W ×C的批内平均值得到新类c的原型。给定一批logit图RB×H×W×C，我们将批次、高度和宽度维度展平，并将logit索引为z i，其中i = 1，. - 是的- 是的，BHW. 类c的质心计算为：BHW1pc=i=1，（12）|{i：y i= c}|其中，如果标签y i是c，则1[y i=c]=1，否则为0。从任务1到任务t的所有类的累积原型t在任务t结束时计算。4. 实验4.1. 实验装置数据集。我们用REMINDER对两个标准的图像语义进行了实验分割数据集：Pascal-VOC 2012 [11]和ADE20 k [41]。Pascal-VOC 2012包含20个前景类。它的训练集和测试集分别包含10，582和1，449张图像。ADE20k有150个前景类，20，210个训练图像和2，000个测试图像。CSS设置。CSS有两个实验设置[2]：不相交和重叠。在不相交设置中，每个步骤中图像中的所有像素都属于先前的类或当前类。在重叠设置中，每一步的数据集都包含至少具有一个当前类别的像素的所有图像，并且来自先前和未来任务的我们在重叠设置中进行实验，因为这是最现实和最具挑战性的设置。对于Pascal-VOC 2012数据集，我们进行了三个不同的实验：在训练19个类后添加1个类（100-50设定，2步），50班训练后每次增加50班（50-50设定，3步），100班训练后每次依次增加10班（100-10设定，6步），100班训练后每次依次增加5班（100-5设定，11步）。指标. 我们通过四个平均交集超过并集（mIoU）度量来评估模型性能。首先，我们计算初始类 0 的mIoU，它反映了模型的刚性：模型对灾难性的索取的弹性。其次，我们计算所有递增类1：T的mIoU，它测量可塑性：学习新任务的模范能力。第三，我们计算所有类的mIoU，0：T（all），显示整体性能的模型。最后，我们报告mIoU的平均值（avg）如[9]所提出的，一步一步地测量，其评估整个持续学习过程中的性能基线。我们将我们的模型与最新的最先进的CSS方法PLOP [9]，SDR [24]，MiB [2]和ILT[23]进行基准测试。我们还根据一般的持续学习方法来评估我们的模型：[2018 - 12 - 18][2018 - 12 -18][2018 - 12 - 18] 为了进行公平的比较，最先进的方法已经使用Deeplab-v3架构重新训练[5][13]一个ResNet-101主干4.2. 与最先进技术的定量评价。我们比较实验结果的提醒与当前国家的最先进的方法。对于Pascal-VOC 2012数据集，表1显示了19-1（2个任务）、15-5（2个任务）和15-1（6个任务）设置的结果。REMINDER在all和avgmIoU上优于所有其他方法。在短的15-5设置（2个任务），我们的模型比PLOP好1。11%在所有mlou。在长15-1设置（6个任务）下，REMINDER将PLOP提高1。75%的新课程（16-20）的mIoU。这表明我们的模型可以通过将新的与以前学习的概念联系起来来学习新的知识。此外，我们的模型优于最近的方法，PLOP和SDR，7。07%和56。46%在所有的mlou。当模型不断学习更多的任务时，REMINDER比其他方法更能适应遗忘。对于ADE 20 k数据集，表2显示了100-50（2个任务）、50-50（3个任务）和100-10（6个任务）设置的结果。在短100-50设置（2个任务）下，REMINDER的性能优于PLOP 4。27%和1。85%的所有和平均指标，分别。在中等100-10设置（6个任务）下，REMINDER大幅提高PLOP1HWi=1c∈C1：t−116872方法[23]第二十三话MiB† [2]特别提款权[24]美国[9]0-1000.0836.0133.0235.7236.06100-5（11项任务）1.315.6610.6312.1816.380.4925.9625.6127.9329.54avg7.8332.6933.0735.1036.49表1. Pascal-VOC 2012上的CSS结果，单位为mIoU（%）。”[9]《明史》：其他结果来自我们的重新实施。19-1（2个任务）15-5（2个任务）15-1（6个任务）方法0-19 20所有avg0-1516-20人avg0-15 16-20全部avgEWC† [18]26.9014.0026.3024.3035.5027.100.304.301.30[31]第三十一话64.4013.3061.9058.1035.0052.306.408.406.90[23]第二十三话67.7510.8865.0571.2367.0839.2360.4570.378.757.998.5640.16MiB [2]70.5722.8268.3072.9575.3048.6868.9675.0739.4714.5033.5354.44特别提款权[24]68.5223.2966.3771.4875.2146.7268.6474.3243.0819.3137.4254.52PLOP [9]75.5030.2273.3575.4375.4449.6569.3074.8263.4126.7654.6866.96提醒76.4832.3474.3876.2276.1150.7470.0775.3668.3027.2358.5268.27联合77.4577.9477.4778.8872.6377.3978.8872.6377.39表2. ADE20k上的CSS结果，单位为mIoU（%）。”[9]《明史》：100-50（2个任务）50-50（3项任务）100-10（6项任务）方法0-100 101-150全部avg0-5051-150人avg0-100 101-150全部avg[23]第二十三话18.2914.4017.0029.423.5312.859.7030.120.113.061.0912.56MiB [2]40.5217.1732.7937.3145.5721.0129.3138.9838.2111.1229.2435.12特别提款权[24]40.5217.1732.7937.3145.6618.7627.8534.2537.2612.1328.9434.48PLOP [9]41.7614.5232.7437.7347.3320.2729.4138.7538.5914.2130.5234.48提醒41.5519.1634.1438.4347.1120.3529.3939.2638.9621.2833.1137.47联合44.3428.2139.0051.2132.7739.0044.3428.2139.00表3. CSS在ADE 20 k 100-5设置上的mIoU（%）结果。为8. 49%，8。平均67%在50-50的设置下，REMINDER与PLOP相当，所有指标略有下降，而在所有任务中测量的平均表3比较了模型在最长100-5设置和11个任务上的性能。我们的REMINDER的性能比PLOP好5倍。76%，3。96%的所有和平均，分别。在基于原型的方法之间，REMINDER的性能大大优于SDR 15。34%在所有的mlou。值得注意的是，拟议的REMINDER显著超过PLOP 34 。 48% 在新学习的课程上（即，类 101-150）。REMINDER比竞争者产生更好的刚塑性折衷，特别是在长CL设置中。表4显示了Pascal-VOC 15-1设置上不同方法的每类mIoU。模型在最后一步学习电视。我们的REMINDER在对象类上的性能始终优于以前的方法。通过提醒，模型可以更好地记住视觉上相似的类。此外，提醒也优于其他竞争者在一个新学习的电视类。这表明，将新旧概念联系起来有助于学习新知识。定性评价。REMINDER、PLOP和MiB分割图的可视化结果如图所示。3在Pascal-VOC 2012的两个测试图像上。为第一个图像（行1-3），PLOP和MiB逐渐从步骤3获得类狗。模型在视觉上相似的图像之间混淆。与其他方法相比，REMINDER方法能更好地区分两类相似的动物，狗和羊.我们的框架有选择地提醒旧类狗的模型，因为它学习羊。因此，当学习视觉上相似的类绵羊时，模型对于第二图像（行4-6），当学习太相似的新类（即，sheep），我们的REMINDER仍然保留了cow的一小部分，而其他方法则完全忘记了cow。在步骤4-6中，PLOP将cow与horse混淆，而REMINDER保留了其对cow的大部分正确预测。由于CSW-KD强制模型学习两个类的相似程度，我们假设模型可以检测相似概念之间更细微的差异。4.3. 消融研究班级层次学习的有效性。我们探索模型的能力，学习类层次结构的可视化功能分布的类。图4显示了从我们的REMINDER提取的特征的t-SNE分布，16873图3. Pascal-VOC 2012中两个测试图像的CSS 15-1设置的6个步骤中MiB、PLOP和REMINDER的可视化结果。在第1-3行，MiB和PLOP在第3步被混淆为狗和羊，在第4-5步被混淆为人和沙发，而REMINDER受到的影响要小得多。在第4-6行，与PLOP和MiB相比，REMINDER在奶牛和马、绵羊之间的混淆程度较低。表4.Pascal-VOC 15-5设置上的每类IoU0（20）基类新类所有巴克格雷Aero自行车鸟船瓶总线车猫椅子牛表狗马摩托车人锅植物羊沙发火车电视MiB [2]84.59 11.30 16.18 37.50 26.03 49.48 6.26 41.08 75.03 1.24 33.34 36.95 64.56 44.04 23.53 80.46 0.84 24.65 14.69 15.21 17.12 33.52特别提款权[24]82.00 16.65 19.54 18.82 0.88 21.46 32.70 35.06 47.81 12.66 4.068.05 37.42 32.96 12.74 74.55 15.44 9.669.66 11.47 9.77 24.44PLOP [9]80.16 66.09 27.11 47.02 52.47 62.82 83.94 80.70 80.43 33.56 64.82 55.24 75.46 62.97 75.04 66.79 20.95 49.44 18.02 31.58 13.82 54.68提醒（我们的）85.77 73.58 32.50 65.10 59.58 67.45 85.64 82.99 84.91 34.55 67.64 57.74 79.22 70.90 76.70 68.58 16.26 46.86 18.79 36.58 17.65 58.52PLOP [9]. REMINDER的特征聚类良好，并在动物和车辆之间产生分离。我们的CSW-KD方法使模型能够捕获类之间的语义相似性，并隐式地学习底层的等级制度。良好分离的特征分布也表明，我们的模型可以提取判别表示，区分视觉上相似的类更好。减少对类似旧类的遗忘我们16874不同的层次。图4.通过REMINDER学习类层次结构。PLOP和REMINDER学习的特征的 T-SNE研究我们的模型在减少与新类相似的旧类的遗忘方面的效率。图5显示了基于Pascal-VOC 15-1设置的PLOP[9]和REMINDER预测PLOP错误地判断了旧的车辆类别-公共汽车（6类）和汽车（7类）-作为新的火车类别（19类）。它还将旧的动物类别-牛（10类）和狗（12类）-错误地预测为新的类别羊（17类）。我们的REMINDER更好地区分了这些相似的类(a) PLOP（b）提醒（我们的）。图5. Pascal-VOC 15-1设置下（a）PLOP和（b）REMINDER的混淆矩阵。每个损失目标的影响。我们研究了不同蒸馏损失目标对Pascal-VOC 15-1设置的影响，如表5所示。我们应用特征知识蒸馏（使用局部POD），其中三个输出知识蒸馏目标之一：（i）我们提出的CSW-KD，（ii）正常知识蒸馏（KD），（iii）MiB中的无偏知识蒸馏（UNKD）[2]。我们的CSW-KD在所有设置中始终优于UNKD。表5.当使用不同的输出蒸馏损失时，REMINDER在Pascal-VOC 15-1设置上的性能。蒸馏损失0-1516-20所有平均值知识蒸馏29.724.4223.6949.18UNKD [2]59.6720.2650.2962.47CSW-KD68.3027.2358.5268.27学习新课程的有效性。我们研究了在Pascal-VOC15-1设置上学习新任务的模型效率。当模型学习一个新类时，我们记录它在该类上的表现，如图所示。6a.建议的REMINDER（蓝色曲线）在所有新类别上实现了最高的mIoU。我们推测，学习类相似性强制模型识别相似类之间的共同特征，从而更好地将旧知识更有效地转移到学习新任务。（a）新类（b）新类上的旧功能和新功能之间的CKA图6. (a)：在新学习的课程上进行示范。(b)：在Pascal-VOC15-1设置上学习所有5个新任务之前和之后的特征之间的相似性（总共6个任务）。REMINDER的功能重用。我们调查的模型的能力，重用功能的提醒。根据最近的研究[26，30]，中心核对齐（CKA）度量用于测量模型表示的相似性。我们在Pascal-VOC 15-1设置上学习所有5个新任务之前和之后计算特征之间的相似性。如图在图6b中，正常的微调方法（红色曲线）擦除了模型深层的特征，这表明了遗忘问题。我们的REMINDER（蓝色曲线）鼓励最多的功能重用。这表明CSW-KD模型在长期持续学习环境中保留了最多的知识。5. 结论本文提出了一种新的类相似性加权知识提取（CSW-KD）方法，以解决连续语义分割中视觉相似类的遗忘问题。REMINDER -我们提出的框架-使用CSW-KD来选择性地修改更容易被遗忘的旧类。在Pascal-VOC2012和ADE 20 k数据集上进行评估，REMINDER在减少旧任务的遗忘和促进新任务的学习方面优于最新的最先进的方法。引用[1] Jose Manuel Alvarez，Theo Gevers，Yann LeCun，andAnto- nio M.洛佩兹从单幅图像中分割道路场景.欧洲计算机视觉会议，第376-389页，2012年。116875[2] FabioCermelli，MassimilianoMancini，SamuelRotaBulo`，Elisa Ricci，and Barbara Caputo.为语义分割中的增量学习建模背景。在IEEE计算机视觉和模式识别会议上，第9230-9239页，2020年。一、二、五、六、七、八[3] Fabio Cermelli，Massimiliano Mancini，Yongqin Xian，Zeynep Akata，and Barbara Caputo.基于原型的增量少镜头语义分割。在英国机器视觉会议上，第484-498页，2021年。3[4] ArslanChaudhry，PuneetKumarDokania，Thalaiyasingam Ajanthan，and Philip H. S.乇创造性学习的黎曼步行：理解遗忘和不传递。欧洲计算机视觉会议，第556-572页，2018年。2[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arxiv，abs/1706.05587，2017年。5[6] Zhijie Deng，Yucen Luo，and Jun Zhu.与教师进行聚类对齐，用于无监督域适应。在IEEE计算机视觉国际会议上，第9943- 9952页，2019年。二、三[7] Prithviraj Dhar ， Rajat Vikram Singh ， Kuan-ChuanPeng，Ziyan Wu，and Rama Chellappa.不记笔记的学习。在IEEE计算机视觉和模式识别会议上，第5133-5141页2[8] 作者：Nanqing Dong，Eric P.邢具有原型学习的少量语义在英国机器视觉会议上，第79-93页，2018年。3[9] Arthur Douillard ， Yifu Chen ， Arnaud Dapogny ， andMatthieu Cord. PLOP：学习而不忘记连续语义分割。在IEEE计算机视觉和模式识别会议上，第4040-4050页，2021年。一、二、四、五、六、七、八[10] Arthur Douillard ， Matthieu Cord ， Charles Ollion ，Thomas Robert ， and Eduardo Valle. Podnet ： Pooledoutputs distilla- tion for small-tasks incremental learning.在欧洲计算机视觉会议上，第86-102页，2020年。4[11] 放大图片作者： Mark Everingham ， Luc Van Gool，Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。Pascal Visual Object Classes（VOC）挑战。InternationalJournal of Computer Vision，88：303-338，2009。5[12] 罗伯特·M·弗伦奇连接主义网络中的灾难性遗忘。Trends in Cognitive Sciences，3（4）：1281[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition，第770-778页5[14] Yufan He，Dong Yang，Holger Roth，Can Zhao，andDaguang Xu.DiNTS：用于3D医学图像分割的可微分神经网络拓扑搜索。在IEEE计算机视觉和模式识别会议上，第5841- 5850页，2021年。1[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。在NIPS深度学习和表示学习研讨会，第1-9页，2015年。3[16] 黄子龙，郝文天，王兴刚，陶明，黄建强，刘文宇，华先胜。半真实的用于类增量语义分割的半假蒸馏 ArXiv ，abs/2104.00875，2021。2[17] Joel Janai ， Fatma Guney ， Aseem Behl ， and AndreasGeiger.自动驾驶汽车的计算机视觉：问题、数据集和最新技术。计算机图形和视觉的基础和趋势，12：1-308，2020。1[18] 放大图片作者：James Kirkpatrick，Razvan Pascanu，Neil C.放大图片创作者：Robert A.鲁苏，基兰米兰，约翰全，蒂亚戈拉马略，阿格涅斯卡格拉布斯卡-巴尔温斯卡，德米斯哈萨比斯，克劳迪娅克洛帕斯，达尚库马兰和拉娅哈德塞尔。克服灾难性的-进入神经网络。美国国家科学院院刊，114：3521- 3526，2017。五、六[19] Xilai Li，Yingbo Zhou，Tianfu Wu，Richard Socher，and Caiming Xiong.学习成长：一个克服灾难性遗忘的持续结构学习框架。国际机器学习会议，第3925- 3934页2[20] Arun Mallya和Svetlana Lazebnik。Packnet：通过迭代修剪将多个任务添加到单个网络。在IEEE计算机视觉和模式识别会议上，第7765-7773页，2018年。2[21] 安德里亚·马拉卡尼，翁贝托·马塞利，马可·托尔多，和彼得罗·扎努蒂格。Recall：语义分割中基于重放的持续学习。在IEEE计算机视觉国际会议上，第7026-7035页，2021年。二、三[22] James L McClelland，Bruce L McNaughton，and AndrewK Lampinen.在内存中整合新信息：从互补学习系统的角度提出了新的见解。Philosophical Transactions of theRoyal Society B，375（1799）：20190637，2020. 2[23] 翁贝托·米切利和彼得罗·扎努蒂格。语义分割的增量学习技术。 International Conference on Computer VisionWorkshop, pages

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于类相似度加权的知识提取连续语义切分

基于语义相似度计算的词汇语义自动分类系统

计算推荐值时，举例说明基于用户相似度的加权余弦相似度法

举例说明基于用户相似度的加权余弦相似度法

举例说明基于用户相似度的加权余弦相似度法（User-Based Weighted Cosine Similarity）

基于语义相似度的地名消歧算法有哪些

基于语义相似度的算法有哪些

python基于物体相似度推荐

基于语义相似度的地名消歧研究

计算推荐值时，基于用户相似度的加权Pearson Correlation Similarity法 ，举例说明

计算推荐值时，举例说明基于用户相似度的加权Pearson Correlation Similarity法

举例说明基于用户相似度的加权余弦相似度法（User-Based Weighted Cosine Similarity），不要写公式

计算物品推荐值的基于用户相似度的加权求和方法，举例说明

举例说明基于用户相似度的加权平均法（User-Based Weighted Average）

基于知网的语义相似度 python

基于用户相似度推荐电影

基于区域计算轨迹相似度算法

基于颜色相似度的区域生长算法 提取图像轮廓 用python写出

python基于余弦的相似度进行图像分类

类内相似度与类间相似度示意图

5110-微信小程序健身房私教预约微信小程序+ssm（源码+数据库+lun文）.zip

最新资源

计算推荐值时，基于用户相似度的加权Pearson Correlation Similarity法，举例说明

基于颜色相似度的区域生长算法提取图像轮廓用python写出