连续语义分割的表示补偿网络

76 浏览量更新于2023-10-25 收藏 15.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

70530连续语义分割的表示补偿网络0张长斌1� 肖佳文1* 刘夏磊1† 陈应聪2,3 程明明101 TMCC，南开大学 2 香港科技大学（广州） 3 香港科技大学0摘要0在这项工作中，我们研究了连续语义分割问题，要求深度神经网络能够持续地融入新类别而不会发生灾难性遗忘。我们提出使用一种结构重参数化机制，称为表示补偿（RC）模块，来解耦旧知识和新知识的表示学习。RC模块由两个动态演化的分支组成，一个是冻结的，一个是可训练的。此外，我们设计了一个在空间和通道维度上进行池化立方知识蒸馏的策略，进一步增强模型的可塑性和稳定性。我们在两个具有挑战性的连续语义分割场景下进行了实验，即连续类别分割和连续域分割。在推断过程中，我们的方法无需额外的计算开销和参数，性能优于现有方法。代码可在https://github.com/zhangchbin/RCIL上找到。01. 引言0数据驱动的深度神经网络[64, 72, 96,108]在语义分割方面取得了许多里程碑。然而，这些全监督模型[16, 23,93]只能处理固定数量的类别。在实际应用中，最好能够动态扩展模型以识别新类别。一种直接的解决方案是重新构建训练集，并使用所有可用的数据重新训练模型，称为联合训练。然而，考虑到重新训练模型的成本、算法的可持续发展和隐私问题，仅使用当前数据更新模型以实现识别新旧类别的目标尤为重要。然而，简单地使用新数据微调训练好的模型可能会导致灾难性遗忘[48]。因此，在本文中，我们寻求连续学习，这可能使模型能够识别新类别而不会发生灾难性遗忘。在连续语义分割场景中[8, 27,0* 前两位作者贡献相同。†通讯作者（xialei@nankai.edu.cn）0池化立方蒸馏0合并0卷积0训练0推断0非线性0非线性0冻结卷积0已训练0卷积0RC模块f t − 1 f t0图1.我们提出的连续语义分割训练框架的示意图，以避免灾难性遗忘。我们的方法中设计了两个机制，表示补偿（RC）模块和池化立方蒸馏（PCD）。0给定先前训练的模型和新类别的训练数据，模型应该能够区分所有已知类别，包括之前的类别（旧类别）和新类别。然而，为了节省标注成本，新的训练数据通常只对新类别进行标注，将旧类别视为背景。直接使用新数据进行学习而没有任何额外的设计非常具有挑战性，很容易导致灾难性遗忘[48]。正如[28, 48,51]所指出的，在新数据上微调模型可能会导致灾难性遗忘，即模型快速适应新类别的数据分布，同时丧失对旧类别的区分能力。一些方法[43, 48, 56, 66, 67, 80,95]对模型参数进行正则化以提高其稳定性。然而，所有参数都是在新类别的训练数据上更新的。这是一个具有挑战性的问题，因为新旧知识在模型参数中交织在一起，使得在学习新知识和保留旧知识之间保持脆弱平衡变得极其困难。一些其他方法[45, 57, 75, 76, 82,91]增加了模型的容量，以在稳定性和可塑性之间取得更好的平衡，但代价是网络内存的增长。在这项工作中，我们提出了一个易于使用的表示补偿模块，旨在记忆旧知识。70540在保留旧知识的同时为新知识提供额外容量。受结构重参数化[24,25]的启发，我们在训练过程中用两个并行分支替换网络中的卷积层，这被称为表示补偿模块。如图1所示，在训练过程中，在非线性激活层之前融合两个并行卷积的输出。在每个持续学习步骤开始时，我们将两个并行卷积的参数等效地合并为一个卷积，该卷积将被冻结以保留旧知识。另一个分支是可训练的，它继承了上一步中相应分支的参数。表示补偿策略旨在使用冻结分支记住旧知识，同时使用可训练分支为新知识提供额外容量。重要的是，该模块在推理过程中不会增加额外的参数和计算成本。为了进一步减轻灾难性遗忘[48]，我们引入了一种知识蒸馏机制[70]，用于中间层之间的知识蒸馏（如图1所示），称为池化立方蒸馏。它可以抑制局部特征图中的错误和噪声的负面影响。本文的主要贡献如下：0•我们在训练过程中提出了一个表示补偿模块，其中包括两个分支，一个用于保留旧知识，一个用于适应新数据。在任务数量增加时，推理过程中的计算和内存成本始终保持不变。0•我们分别在持续类别分割和持续域分割上进行实验。实验结果表明，我们的方法在三个不同的数据集上优于最先进的性能。02. 相关工作语义分割。早期的方法主要关注建模上下文关系[2, 49,103]。目前的方法更加注重多尺度特征聚合[3, 34, 52, 53,59, 65, 68, 81]。一些方法[14, 22, 32, 37, 38, 50,55]受到非局部[85]的启发，利用注意机制在图像上下文之间建立连接。另一条研究线[15, 61,94]旨在融合来自不同感受野的特征。最近，变换器架构[7,26, 86, 97, 104,109]在语义分割中表现出色，重点是多尺度特征融合[12,84, 89, 101]和上下文特征聚合[58, 79]。0持续学习。持续学习关注的是在学习新类别时减轻灾难性遗忘的问题。为了解决这个问题，许多工作[4, 5, 11, 47,77]提出了通过回放机制来复习知识。这些知识可以以多种类型存储，0像例子[4, 6, 9, 11, 73, 83]，原型[35, 106,107]，生成网络[60]等等。尽管这些基于回放的方法通常能够达到很高的性能，但它们需要存储和存储权限。在没有任何回放的更具挑战性的场景中，许多方法探索正则化来保持旧知识，包括知识蒸馏[10, 18, 21, 28, 51, 69, 74,100]，对抗训练[29, 88]，普通正则化[43, 48, 56, 66, 67,80, 95,98]等等。其他方法关注神经网络的容量。其中一条研究线[45, 57, 75, 76, 82,91]是在学习新知识的同时扩展网络架构。另一条研究线[1,44]探索网络参数的稀疏正则化，旨在为每个任务激活尽可能少的神经元。这种稀疏正则化减少了网络中的冗余，同时限制了每个任务的学习能力。一些工作提出通过结合自监督学习的特征提取器[9, 87]和解决类别不平衡[39, 46, 54, 99,102]来学习更好的表示。0持续语义分割。持续语义分割仍然是一个迫切需要解决的问题，主要关注语义分割中的灾难性遗忘[48]。在这个领域中，持续类别分割是一种经典的设置，之前的几项工作取得了很大的进展：[41,92]探索了基于回顾的方法来回顾旧知识；MiB[8]模拟潜在类别来解决背景类别的模糊性；PLOP[27]应用知识蒸馏策略到中间层；SDR[63]利用原型匹配在潜在空间表示中执行一致性约束。而其他方法[31, 78,95]利用高维信息、自训练和模型适应来克服这个问题。此外，持续领域分割是由PLOP[27]提出的一种新颖的设置，旨在集成新领域而不是新类别。与之前的方法不同，我们专注于动态扩展网络，将旧类别和新类别的表示学习解耦。03. 方法03.1. 准备工作0设 D = {xi, yi} 表示训练集，其中 xi 表示输入图像，yi是对应的分割标签。在具有挑战性的持续学习场景中，我们将对新添加的数据集 Dt的每次训练称为一步。在第t步，给定一个在{D0,D1...Dt-1}上训练的具有参数θt-1的模型ft-1，该模型在连续的C0,C1...Ct-1类上进行训练，当遇到一个新添加的数据集Dt时，模型应该学习到对Ct个新类别的区分。在训练Dt时，旧类别的训练数据是不可访问的。此外，为了节省训练成本，Dt中的标签只包含Ct个新类别，而旧类别被标记为ˆx =1�i=0Normi(Wix + bi)=1�i=0(γiWix + bi − µiσi+ βi)= (1�i=0γiWiσi)x +1�i=0(γibi − γiµiσi+ βi)= ˆWx + ˆb.(1)ˆx = η · x1 + (1 − η) · x2,(2)70550冻结03x3卷积 3x3卷积0归一化03x3卷积0归一化03x3卷积0归一化0合并0权重0偏置0μ σ β γ0权重0偏置0μ σ β γ0权重0偏置0权重0偏置0权重0偏置0第t-1步第t步0图2.我们表示补偿机制的示意图。我们将3×3卷积修改为两个并行卷积。两个分支的特征在激活层之前进行聚合。在第t步的开始，第t-1步训练的两个并行分支可以合并成一个等效的卷积层，该层将被冻结并视为第t步的一个分支。第t步的另一个分支从第t-1步的相应分支初始化。我们在图的右侧展示了合并操作。0背景。因此，存在一个迫切的问题，即灾难性遗忘。为了验证不同方法的有效性，通常需要进行多次持续学习，例如N步。03.2. 表示补偿网络0为了解耦旧知识的保留和新知识的学习，如图2所示，我们引入了表示补偿机制。在大多数深度神经网络中，3×3卷积后跟归一化和非线性激活层是一个常见的组件。我们通过为每个组件添加一个并行的3×3卷积，然后是一个归一化层来修改这个架构。两个并行卷积-归一化层的输出被融合，然后通过非线性激活层进行修正。形式上，该架构包含两个带有权重{W0, W1}和偏置{b0,b1}的并行卷积层，分别后跟两个独立的归一化层。设Norm0 = {µ0, σ0, γ0, β0}和Norm1 = {µ1, σ1, γ1,β1}分别表示两个归一化层Norm0和Norm1的均值、方差、权重和偏置。因此，在非线性激活函数之前，输入x的计算可以表示为0这个方程表明，两个并行分支可以等效地表示为一个具有权重ˆW和偏置ˆb的分支。我们还在图2的右侧显示了这个变换。因此，对于这个修改后的架构，我们可以等效地将两个分支的参数合并为一个卷积。0更准确地说，在步骤0中，所有参数都是可训练的，以训练一个能够区分C0类的模型。对于后续的学习步骤，模型应该对新增的类进行分割。在这些连续的学习步骤中，网络将使用在前一步训练的参数来初始化，这有利于知识的传递[8]。在第t步的开始时，由于模型应该避免遗忘旧知识，我们将在第t-1步训练的并行分支合并为一个卷积层。这个合并分支中的参数被冻结以记忆旧知识，如图2所示。另一个分支是可训练的，用于学习新知识，它的初始化是来自前一步的相应分支。此外，我们设计了一种drop-path策略，用于聚合来自两个分支的输出x1和x2。在训练过程中，非线性激活之前的输出被表示为0其中η是随机的通道加权向量，从集合{0，0.5，1}中均匀采样。在推理过程中，向量η的元素被设置为0.5。实验结果表明，这种策略带来了轻微的改进。对RC-Module有效性的分析。如图3所示，平行卷积结构可以被看作是许多子网络的隐式集成[36，40]。这些子网络中的一些层的参数是从合并的教师模型（在前一步训练）继承并被冻结的。在训练过程中，类似于[33，90]，这些冻结的教师层将对可训练参数施加正则化，鼓励可训练层的行为像教师模型一样。在一个特殊情况下，子网络中只有一层是可训练的，如图3（a）所示，在训练过程中，这一层将同时考虑适应冻结层的表示和学习新知识。因此，这种机制将减轻可训练层的灾难性遗忘。我们进一步将这种效果推广到像图3（b）这样的一般子网络中，ccccc70560集成0（a）（b）（c）0图3.我们提出的表示补偿网络的示意图。我们的架构（c）可以被看作是许多子网络（a），（b）等的隐式集成。蓝色表示从合并的教师模型继承的冻结层。绿色表示可训练层。灰色表示在子网络中被忽略的层。0这也将鼓励可训练层适应冻结层的表示。此外，所有子网络都被集成，将来自不同子网络的知识整合到一个网络中，如图3（c）所示。03.3. 池化立方体知识蒸馏0为了进一步减轻旧知识的遗忘，我们还参考了PLOP[27]的特征蒸馏。如图4（a）所示，PLOP[27]引入了条带池化[38]来集成特征。池化操作在知识传递中起着关键作用。在我们的方法中，我们设计了基于平均池化的空间维度上的知识蒸馏。此外，我们还在每个位置上使用通道维度上的平均池化来维持它们的个体激活强度。总体而言，如图4（b）所示，我们在空间和通道维度上都使用了平均池化。具体来说，我们选择最后一个非线性激活层之前的特征图{X1，X2，...，XL}，包括解码器和骨干网络中的所有L个阶段。对于来自教师模型和学生模型的特征，我们首先计算每个像素的值的平方以保留负信息。然后，我们分别在空间和通道维度上进行多尺度平均池化。教师模型和学生模型的特征ˆXlT，ˆXlS可以通过平均池化操作⊙计算得到：0ˆ X l,m T = M ⊙ [( X l T,ij ) 2 ] ˆ X l,mS = M ⊙ [( X l S,ij ) 2 ] , (3)0其中M表示第m个平均池化核，l表示第l个阶段。对于在空间维度上的平均池化，我们使用多尺度窗口来建模局部区域像素之间的关系。核M的大小属于M = {4, 8, 12, 16, 20,24}，0条带池化平均池化平均池化0行0列空间KD 通道KD (a) PLOP [ 27 ] (b) 我们的方法0图4. PLOP [ 27 ]和我们提出的Pooled Cube KnowledgeDistillation机制的比较。0步长设置为1。我们简单地将窗口大小设置为3，用于在通道维度上进行平均池化。然后，中间层的空间知识蒸馏损失函数L skd 可以表示为0L skd = 0L 10|M|0L �0|M|�0m =10� 0H �0W 0d =1 [( ˆ X l,m T,ijd − ˆX l,m S,ijd ) 2 ] ,0(4)其中H、W、D表示高度、宽度和通道数。同样的方程也可以应用于通道维度，其中M = {3}形成L ckd。总体而言，蒸馏目标可以表示为：0L = L skd + L ckd . (5)0平均池化 vs.条带池化。由于其聚合特征和建模长程依赖的强大能力，条带池化在许多全监督语义分割模型中表现出色。持续分割的性能仍然远远不及全监督分割。在持续分割的情况下，预测结果中通常存在更多的噪声或错误。因此，在蒸馏过程中，当使用条带池化来聚合特征时，这种长程依赖性将向交叉点引入一些不相关的噪声，导致噪声扩散。这将进一步恶化学生模型的预测结果。在我们的方法中，我们使用局部区域的平均池化来抑制噪声的负面影响。具体而言，由于局部区域的语义通常相似，当前关键点可以通过聚合局部区域的特征来找到更多的邻居来支持其决策。因此，当前关键点受到局部区域噪声的负面影响较小。如图5 (b)顶部所示的示例，条带池化将噪声或错误引入到教师模型的交叉点。在蒸馏过程中，噪声进一步传播到学生模型，造成噪声扩散。对于图5底部的平均池化，关键点将70570(a) 图像 (b) 步骤2 (c) 步骤3 (d) GT0图5. PLOP [ 27]中使用的条带池化（顶部行）和我们方法中的平均池化（底部行）的影响。0考虑许多附近的邻居，从而得到一个更能抵抗噪声的聚合特征。04. 实验0在本节中，我们首先展示了我们的实验设置的细节，例如数据集、协议和训练细节。然后我们通过定量和定性实验证明了我们方法的有效性。04.1. 实验设置04.1.1 数据集0PASCAL VOC 2012 [ 30]是一个常用的数据集，包含10,582张训练图像和1449张验证图像，共有20个目标类别和背景类别。ADE20K [ 105]是一个用于语义分割的日常生活场景数据集。它包含20,210张训练图像和2,000张验证图像，共有150个类别。Cityscapes [ 19]包含2,975张训练图像、500张验证图像和1,525张测试图像。共有21个城市的19个类别。04.1.2 协议0持续类别分割。在持续类别分割中，模型按照多个步骤顺序训练以识别不同的类别。每一步，模型学习一个或多个类别。根据[8, 27,63]的假设，我们假设之前步骤的训练数据不可用，即模型只能访问当前步骤的数据。此外，当前步骤中只有要学习的类别被标记，所有其他类别被视为背景。[8]提出了两种常用的持续类别分割设置，即不相交和重叠。在不相交的设置中，假设我们知道未来的所有类别，当前训练步骤中的图像不包含未来的任何类别。重叠的设置更加现实，允许未来的潜在类别出现在当前的训练图像中。我们在PASCAL VOC 2012[30]和ADE20K [105]上进行了持续类别分割实验。根据[8,27, 63]中在第3.1节中定义的方式，我们称每个训练为0新添加的数据集作为一个步骤。形式上，X-Y表示我们实验中的持续设置，其中X表示我们需要在第一步中训练的类别数量。在每个后续的学习步骤中，新添加的数据集包含Y个类别。在PASCAL VOC 2012[30]上，我们进行了三种设置的实验，15-5（2步），15-1（6步）和10-1（11步）。例如，15-1表示我们在第一步中对初始的15个物体类别进行训练。在接下来的五个步骤中，预期模型将在新的数据集上进行训练，其中每个数据集包含一个新添加的类别。因此，模型在最后一步可以区分20个物体类别。在ADE20K[105]上，我们应用了四种设置，100-50（2步），50-50（3步），100-10（6步）和100-5（11步）。0持续域分割。这是由[27]提出的。与持续类别分割不同，这个设置是为了处理域漂移现象而不是集成新的类别。在现实世界的场景中，域漂移也经常发生。我们假设不同域中的类别是相同的。当在新的域数据上进行训练时，旧域的训练数据是不可访问的。我们在Cityscapes[19]上进行了持续域分割实验。根据PLOP[27]的做法，我们将每个城市的训练数据视为一个域。我们还应用了三种设置，11-5（3步），11-1（11步）和1-1（21步）。在这些实验设置中，我们使用与持续类别分割相同的记录，但每个步骤添加的是新的域（城市），而不是类别。04.1.3 实现细节0根据[8, 27, 63]，我们使用Deeplab-v3[13]架构和ResNet-101[36]作为骨干网络。Deeplab-v3的输出步幅设置为16。我们还应用了与骨干网络在ImageNet[20]上预训练的in-place激活批归一化[71]，与上述方法相同。我们使用MiB[8]提出的损失函数来辅助我们的训练过程。并且我们采用与[8, 27,63]相同的训练策略。具体来说，我们应用相同的数据增强，例如水平翻转和随机裁剪。所有实验的批量大小都设置为24。我们将初始学习率设置为0.02用于第一步训练，0.001用于后续的持续学习步骤。学习率按照poly调度进行调整。我们使用SGD优化器对每个步骤进行训练，分别使用30（PASCAL VOC 2012 [30]），50（Cityscapes[19]）和60个epoch（ADE20K[105]）。我们还使用训练集的20％作为验证集，按照[8, 27,63]的做法。我们报告原始验证集上的平均交并比（mIoU）04.2. 持续类别分割PASCAL VOC 2012。应用与[8, 27,63]相同的实验设置，我们在不同的012345102030405060708001234510203040506070800246810121416182030354045507058015-5（2步） 15-1（6步） 10-1（11步）0不重叠重叠不重叠重叠不重叠重叠方法 0-15 16-20 全部 0-15 16-20 全部 0-15 16-20 全部 0-15 16-20 全部 0-10 11-20 全部 0-1011-20 全部0微调 5.7 33.6 12.3 6.6 33.1 12.9 4.6 1.8 3.8 4.6 1.8 3.9 6.3 1.1 3.8 6.4 1.2 3.9 联合 79.8 72.6 78.2 79.8 72.6 78.2 79.8 72.6 78.2 79.872.6 78.2 78.2 78.0 78.2 78.2 78.0 78.20LwF [51] 60.4 37.4 54.9 60.8 36.6 55.0 5.8 3.6 5.3 6.0 3.9 5.5 7.2 1.2 4.3 8.0 2.0 4.8 ILT [62] 64.9 39.5 58.9 67.8 40.6 61.3 8.6 5.7 7.99.6 7.8 9.2 7.3 3.2 5.4 7.2 3.7 5.5 MiB [8] 73.0 43.3 65.9 76.4 49.4 70.0 48.4 12.9 39.9 38.0 13.5 32.2 9.5 4.1 6.9 20.0 20.1 20.1 SDR[63] 74.6 44.1 67.3 76.3 50.2 70.1 59.4 14.3 48.7 47.3 14.7 39.5 17.3 11.0 14.3 32.4 17.1 25.1 PLOP [27] 71.0 42.8 64.3 75.7 51.770.1 57.9 13.7 46.5 65.1 21.1 54.6 9.7 7.0 8.4 44.0 15.5 30.50我们的方法 75.0 42.8 67.3 78.8 52.0 72.4 66.1 18.2 54.7 70.6 23.7 59.4 30.6 4.7 18.2 55.4 15.1 34.30表1。在Pascal VOC 2012数据集上不同连续类别分割场景的最后一步的mIoU（%）。红色表示最高结果，蓝色表示第二高结果。0步骤0我们的方法 ILTMiBPLOPSDR0在PASCAL VOC 2012上的15-1不重叠结果0步骤0我们的方法 ILTMiBPLOPSDR0在PASCAL VOC 2012上的15-1重叠结果0步骤0我们的方法ILTMiBPLOP0在Cityscapes上的1-1结果0图6。三个实验设置中每个步骤的mIoU（%）。（a）（b）是连续类别分割的设置。（c）是连续域分割的设置。0连续学习设置15-5、15-1和10-1。如表1所示，我们报告了最后一步的实验结果。传统的微调方法会遭受灾难性遗忘现象。模型很快忘记了旧知识，无法很好地学习新知识。实验结果表明，我们的方法在重叠和不重叠的设置下都显著提高了分割性能。特别是在具有挑战性的15-1设置中，我们的方法在mIoU方面分别比最先进方法提高了6.0%（不重叠）和4.8%（重叠）。我们还展示了不同方法在每个步骤上的性能，如图6a和图6b所示。这表明我们的方法可以减少连续学习过程中旧知识的遗忘。在表1中，我们还报告了旧类和新类的性能。对于所有设置，旧类的性能有了很大的提高。这得益于表示补偿模块和蒸馏机制，它们可以有效地保留旧知识。另一方面，我们提出的表示模块和蒸馏机制为学习新知识提供了空间。在第4.4节中，我们将进一步分析这两个机制的有效性。我们还展示了0在图7中显示了15-1重叠设置中不同方法的结果。0ADE20K。为了验证我们方法的有效性，我们在具有挑战性的语义分割数据集ADE20K[105]上进行了实验。实验结果显示在表2和表3中。在不同的连续学习任务100-50、100-10和50-50上，我们的方法相对于最先进方法平均提高了1.4%。为了进一步验证我们的方法，我们还在一个更具挑战性的场景100-5上进行了实验，该场景包含11个步骤。在这个场景中，我们的方法在mIoU方面也达到了最先进水平，在Tab.3中相对于之前的方法提高了约0.9%。这个改进是由于我们提出的表示补偿模块和池化立方体蒸馏机制。04.3. 连续域分割0在连续语义分割的背景下，除了需要分割新类别外，增加对新域的处理能力也非常重要。我们按照[27]的方法，在Cityscapes [19]上进行了连续域语义分割的实验。Cityscapes[19]中的每个城市可以被视为一个域，70590100-50 (2步) 100-10 (6步) 50-50 (3步) 方法 1-100 101-150 全部 1-100 101-110 111-120 121-130 131-140 141-150 全部 1-5051-100 101-150 全部0ILT [62] 18.3 14.8 17.0 0.1 0.0 0.1 0.9 4.1 9.3 1.1 13.6 12.3 0.0 9.7 MiB [8] 40.7 17.7 32.8 38.3 12.6 10.6 8.7 9.5 15.1 29.2 45.326.1 17.1 29.3 PLOP [27] 41.9 14.9 32.9 40.6 15.2 16.9 18.7 11.9 7.9 31.6 48.6 30.0 13.1 30.40我们的方法 42.3 18.8 34.5 39.3 14.6 26.3 23.2 12.1 11.8 32.1 48.3 31.3 18.7 32.50联合 44.3 28.2 38.9 44.3 26.1 42.8 26.7 28.1 17.3 38.9 51.1 38.3 28.2 38.90表2. ADE20K数据集上不同重叠连续学习场景的最后一步的mIoU(%)。红色表示最高结果，蓝色表示第二高结果。0方法 1-100 101-150 全部0ILT [62] 0.1 1.3 0.5 MiB [8] 36.0 5.625.9 PLOP [27] 39.1 7.8 28.70我们的方法 38.5 11.5 29.60表3. ADE20K上100-5重叠的最终mIoU(%)。0方法 11-5 (3步) 11-1 (11步) 1-1 (21步)0Fine-tuning 61.7 60.4 42.9 LwF [51] 59.7 57.3 33.0LwF-MC [69] 58.7 57.0 31.4 ILT [62] 59.1 57.8 30.1MiB [8] 61.5 60.0 42.2 PLOP [27] 63.5 62.1 45.20我们的方法 64.3 63.0 48.90表4. 在Cityscapes [19]上进行连续域语义分割的最终mIoU(%)。0这在域自适应语义分割任务中被广泛使用[17]。在这种情况下，我们不考虑域之间的类别差异。如表4所示，实验结果表明我们的方法在所有三种设置中都比之前的方法[8, 27,62]获得了更高的mIoU。我们的方法在具有21个学习步骤的具有挑战性的1-1设置中超过了最先进的方法3.7%。对于这个设置，我们在图6c中显示了每个步骤的性能。由于MiB[8]旨在解决在连续域分割中不存在的语义转移问题，所以MiB[8]的性能略低于Fine-tuning。这些实验表明，我们的方法对于连续域语义分割也是有效的，能够保留旧知识并学习新知识的能力。04.4. 消融研究0在本节中，我们首先分析了我们提出的表征补偿和池化立方体蒸馏机制的有效性。然后我们讨论了在连续学习场景中对类别顺序的鲁棒性。表征补偿。我们进行了消融实验。0MiB ‡ [8] RC Strip [38] S-KD C-KD 15-10� 36.1 � � 43.0 � � � 58.3 � � � 58.4 � � � 57.8 � � � 57.9 � � � �59.40表5.关于空间维度(S-KD)和通道维度(C-KD)上的表征补偿模块(RC)和池化立方体蒸馏机制的消融研究的最终mIoU(%)。实验在PASCAL VOC2012上进行，15-1重叠设置。†表示基线通过自适应因子[27]改进。0并行卷积合并冻结Drop-path 15-10� 40.1 � � 42.0 � � � 42.8 � � � � 43.00表6.表征补偿模块消融研究。所有实验都在没有池化立方体蒸馏的情况下在PASCAL VOC 2012上进行。0在PASCAL VOC 2012[30]上进行了实验。如表5所示，我们提出的表征补偿模块比MiB[8]基线提高了约7%。通过这个模块，我们的方法达到了最先进的性能。我们认为这种性能是由于我们的方法中记住旧知识的方案，同时允许学习新知识。在我们的方法中，合并和冻结参数的操作旨在减轻旧知识的遗忘。因此，在表6中，我们进一步研究了这两个操作的有效性。具体而言，在普通的并行卷积分支(Parallel-Conv)的基础上，合并(Merge)和冻结(Frozen)的操作可以带来2.7%的改进。实验结果表明，模型可以从前几步的冻结知识中受益。蒸馏机制。在表5中，我们研究了空间和通道维度上知识蒸馏机制的重要性。知识蒸馏52.036.148.054.656.10102030405060mIoU(%)01020304050mIoU(%)70600图像 MiB [8] SDR [63] PLOP [27] 我们的 GT0图7. 不同方法之间的定性比较。所有预测结果都来自于15-1重叠设置的最后一步。0无池化 GAP 最大池化条带池化平均池化0表7. 蒸馏机制中不同池化方法的比较。所有实验都在PASCAL VOC2012的15-1重叠上使用PLOP框架进行。GAP表示全局平均池化。0在空间和通道维度上的表示补偿模块实现了类似的性能，在mIoU方面优于基线约15.3%。通过表示补偿模块，这两种蒸馏机制的组合可以达到最先进的性能。我们进一步比较了知识蒸馏机制中使用的不同池化方法的有效性，如表7所示。实验结果表明，平均池化优于条带池化1.5%。对类别顺序的鲁棒性。在连续语义分割的场景中，流水线中的类别顺序尤为重要。为了验证对类别顺序的鲁棒性，我们在五个不同的类别顺序上进行实验，包括四个随机顺序和原始的升序。在图8中，我们展示了不同方法的平均性能和标准方差[8, 27, 62,63]。实验结果表明，我们的方法对不同类别顺序的鲁棒性优于先前的方法。05. 结论和局限性0在这项工作中，我们旨在在为旧类别记忆知识的同时，为学习新类别提供容量。0ILT MiB SDR PLOP Ours0(a) 15-1 重叠0ILT MiB SDR PLOP Ours0(b) 15-1 不相交0图8. 在不同连续学习类别顺序下的平均性能和标准方差。0我们提出了表示补偿模块，它在没有额外推理成本的情况下动态扩展网络。此外，为了进一步减轻对旧知识的遗忘，我们在空间和通道维度上提出了池化立方蒸馏机制。我们在两个常用的基准测试上进行实验，连续类别分割和连续域分割。我们的方法优于最先进的性能。尽管我们提出了两个组件，它们优于最先进的性能，但在许多步骤的连续学习过程中，如表1所示的10-1设置，我们的性能较差。在这些具有挑战性的场景中，如何提高模型的性能仍有很长的路要走。此外，我们的方法在训练过程中需要更多的计算成本。致谢本工作由中国国家重点研发计划（NO.2018AAA0100400）和国家自然科学基金委员会（NO.61922046）以及中国教育部科技创新项目资助。70610参考文献0[1] Davide Abati, Jakub Tomczak, Tijmen Blankevoort,Simone Calderara, Rita Cucchiara, and Babak EhteshamiBejnordi. 用于任务感知的条件通道门控网络的连续学习. In IEEEConf. Comput. Vis. Pattern Recog. , pages 3931–3940, 2020. 20[2] Anurag Arnab, Sadeep Jayasumana, Shuai Zheng, andPhilip HS Torr. 高阶条件随机场在深度神经网络中的应用. InEur. Conf. Comput. Vis. , 2016. 20[3] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla.Segnet: 一种用于图像分割的深度卷积编码器-解码器架构. IEEETrans. Pattern Anal. Mach. Intell. , 39(12):2481–2495, 2017.20[4] Jihwan Bang, Heesu Kim, YoungJoon Yoo, Jung-WooHa, and Jonghyun Choi. 彩虹记忆:具有多样样本记忆的连续学习. In IEEE Conf. Comput. Vis.Pattern Recog. , 2021. 20[5] Eden Belouadah and Adrian Popescu. Il2m:具有双重记忆的类别增量学习. 在国际计算机视觉会议上, 2019.20[6] Pietro Buzzega, Matteo Boschini, Angelo Porrello,Davide Abati, and Simone Calderara. Dark experience forgeneral continual learning: 一个强大而简单的基准.在神经信息处理系统进展会议上, 2020. 20[7] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测. 在欧洲计算机视觉会议上,2020. 20[8] Fabio Cermelli, Massimiliano Mancini, Samuel RotaBulo, Elisa Ricci, and Barbara Caputo.在语义分割中建模背景以进行增量学习.在IEEE计算机视觉与模式识别会议上, 2020. 1 , 2 , 3 , 5 , 6 , 7, 80[9] Hyuntak Cha, Jaeho Lee, and Jinwoo Shin. Co2l:对比持续学习. 在国际计算机视觉会议上, 2021. 20[10] Arslan Chaudhry, Puneet K Dokania, ThalaiyasingamAjanthan, and Philip HS Torr. Riemannian walk forincremental learning: 理解遗忘和固执. 在欧洲计算机视觉会议上,2018. 20[11] Arslan Chaudhry, Albert Gordo, Puneet K Dokania,Philip Torr, and David Lopez-Paz.利用回顾将过去的知识锚定在持续学习中.在人工智能国家会议(AAAI)上, 2021. 20[12] Chun-Fu Chen, Quanfu Fan, and Rameswar Panda.Crossvit: 用于图像分类的跨注意力多尺度视觉Transformer.在国际计算机视觉会议上, 2021. 20[13] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRF的语义图像分割.IEEE模式分析与机器智能交互期刊, 40(4):834–848, 2017. 50[14] Liang-Chieh Chen, Yi Yang, Jiang Wang, Wei Xu, andAlan L Yuille. 注意力尺度: 尺度感知的语义图像分割.在IEEE计算机视觉与模式识别会议上, 2016. 20[15] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam.具有空洞可分离卷积的编码器-解码器用于语义图像分割.在欧洲计算机视觉会议上, 2018. 20[16] Lin-Zhuo Chen, Zheng Lin, Ziqin Wang, Yong-LiangYang, and Ming-Ming Cheng.空间信息引导的实时RGBD语义分割. IEEE图像处理交易,30:2313–2324, 2021. 10[1

下载后可阅读完整内容，剩余1页未读，立即下载