基于蒸馏的增量学习方法用于语义分割的研究

39 浏览量更新于2023-10-23 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1语义分割FabioCermelli1，2，MassimilianoMancini2，3，4，SamuelRotaBulo`5，ElisaRicci3，6，BarbaraCaputo1，21Politecnico di Torino，2Italian Institute of Technology，3Fondazione Bruno Kessler，4罗马大学Sapienza，5Mapillary Research，6特伦托大学{fabio.cermelli，barbara.caputo}@ polito.it，mancini@diag.uniroma1.it，samuel@mapillary.com，eliricci@fbk.eu摘要尽管它们在广泛的任务中有效，但深度架构受到一些重要的限制。特别是，他们很容易被灾难性的遗忘，I.E.当需要它们更新它们的模型时，它们的表现很差，因为新的类是可用的，但是原始的训练集没有被保留。本文在语义切分的背景下讨论了这个问题当前的策略在这项任务上失败了，因为它们没有考虑语义分割的一个特殊方面：由于每个训练步骤仅为所有可能类别的子集提供注释，所以背景类别的像素（即，不属于任何其他类别的像素在这项工作中，我们回顾了经典的增量学习方法，提出了一个新的基于蒸馏的框架，明确说明了这种转变。此外，我们引入了一种新的策略来初始化分类器的参数，从而防止偏向于背景类的预测。我们通过对Pascal-VOC 2012和ADE 20 K数据集的广泛评估证明了我们方法的有效性，显著优于最先进的增量学习方法。代码可在https://github.com/fcdl94/MiB上找到。1. 介绍语义分割是计算机视觉中的一个基本问题。在过去的几年中，由于深度神经网络的出现和大规模人类注释数据集的可用性[11，39]，现有技术已经显着改善[20，8，38，19，37]。当前的方法是通过将深度架构从图像级扩展到像素级分类，利用全卷积网络（FCN）[20]。多年来，基于模糊控制网络的语义分割模型在几个方面得到了改进，例如：通过利用多尺度表示[19，37]，建模空间依赖性和上下文线索[6，5，8]或考虑注意力模型[7]。图1：语义分段增量学习中背景类的语义转换说明。黄色框表示学习步骤中提供的基础事实由于不同的学习步骤具有不同的标签空间，在步骤t，旧类（例如，人）和看不见的人（例如，汽车）可以被标记为当前地面实况中的背景在这里，我们展示了单个类学习步骤的特定情况，但我们解决了添加任意数量的类的一般情况。尽管如此，现有的语义分割方法并没有被设计为当发现新类别虽然深度网络无疑是强大的，但众所周知，它们在增量学习环境中的能力是有限的[16]。事实上，深层架构在更新其参数以学习新类别的同时保留旧类别的良好性能（灾难性遗忘[23]）。虽然增量学习的问题已经在对象识别[18，17，4，28，15]和检测[32]中得到了解决在这里，我们填补了这一空白，提出了一个增量类学习（ICL）的语义分割方法。受先前图像分类方法的启发[18，28，3]，我们通过诉诸知识蒸馏来应对灾难性遗忘[14]。然而，我们认为（并通过实验证明），以前的知识蒸馏策略的天真应用将92339234在这种情况下是不够的。事实上，语义分割的一个特殊方面是存在一个特殊的类，即背景类，表示未分配给任何给定对象类别的像素。虽然这个类的存在稍微影响了传统的离线语义分割方法的设计如示于图1，可以合理地假设与后台类相关联的语义随时间而变化。换句话说，在学习步骤期间与背景相关联的像素可以在后续步骤中被分配给特定对象类，反之亦然，其效果是加剧灾难性遗忘。为了克服这个问题，我们重新审视了经典的基于蒸馏的增量学习框架[18]，通过引入两个新的损失项来适当地解释背景类中的语义分布变化，从而引入了第一个针对语义分割的ICL方法我们在两个数据集Pascal-VOC [11]和ADE 20 K [39]上对我们的方法进行了广泛的评估，结果表明，我们的方法加上一种新的分类器初始化策略，在很大程度上优于传统的ICL方法。综上所述，本文的贡献如下：• 我们研究了用于语义分割的增量类学习任务，特别分析了由于存在背景类。• 我们提出了一个新的目标函数，一个特定的分类器初始化策略，以明确应对不断演变的语义的背景课我们表明，我们的方法极大地消除了灾难性的遗忘，从而达到了最先进的水平。• 考虑到不同的实验设置，我们在两个流行的语义分割数据集上对我们的方法进行了基准测试。我们希望我们的研究结果将作为未来工作的参考。2. 相关作品语义分割。深度学习使语义分割取得了巨大进步[20，8，38，19，37]。最先进的方法是基于全卷积神经网络[20，2]，并使用不同的策略来调节其全局上下文上的像素级注释，例如。使用多个尺度[38，19，6，5，37，8]和/或建模空间依赖性[6，12]。绝大多数的语义分割方法都考虑离线设置，即. 他们假设所有类别的训练数据都是事先可用的。据我们所知，ICL在语义分割中的问题仅在 [26 ， 27 ， 33 ， 24] 中得到了解决。Ozdemir等人[26，27]描述了用于医学成像的ICL方法，扩展了标准图像级分类方法[18]用于分割和设计策略以选择旧数据集的相关样本用于排练。 Taras等人提出了一个类似的方法分割遥感数据。Differently, Michieli et al. [24]考虑在特定设置中用于语义分割的ICL，其中在学习新类的同时为旧类提供标签。此外，他们假设新的类永远不会作为背景出现在先前学习步骤的像素中。这些假设极大地限制了他们的方法的适用性在这里，我们提出了一个更有原则的制定ICL问题的语义分割。与以前的作品相比，我们不限制我们的分析，以医疗[26]或遥感数据[33]，并且我们不对标签空间在不同学习步骤中如何变化施加任何限制[24]。此外，我们是第一个在常用的语义分割基准上对最先进的ICL方法进行全面实验评估的人，并明确引入和解决背景类的语义转移，这是一个被以前的工作认识到但在很大程度上受到监督的问题[24]。增量学习。对于图像分类任务[9]，已经广泛地研究了灾难性forgetting [23]问题。以前的作品可以分为三类[9]：基于重放的[28，3，31，15，34，25]，基于正则化的[17，4，36，18，10]和参数基于隔离[22，21，30]。在基于重放的方法中，例如，先前任务的样本被存储[28，3，15，35]或生成[31，34，25]，然后在学习新任务时重放。基于参数隔离的方法[22，21，30]为每个任务分配一个参数子集以防止遗忘。基于正则化的方法可以分为以先验为中心的方法和以数据为中心的方法。前者[36，4，17，1]将知识定义为参数值，通过惩罚旧参数的重要参数的变化来约束新任务的学习。后者[18，10]利用蒸馏[14]并使用旧网络和新网络产生的激活之间的距离作为正则化项来防止灾难性遗忘。尽管取得了这些进展，很少有工作已经超越了图像级分类。在这个方向上的第一项工作是[32]，它在对象检测中考虑了ICL，提出了一种基于蒸馏的方法，该方法改编自[18]，用于处理新类别识别和边界框建议生成。在这项工作中，我们也采取了类似的方法[32]，我们诉诸蒸馏。然而，在这里，我们提出解决建模的背景转移，这是特殊的语义分割设置的问题。3. 方法3.1. 问题定义和符号在深入研究ICL语义分割的细节之前，我们首先介绍了语义分割的任务，9235i=11不图2：我们的方法概述。在学习步骤t，图像由旧（顶部）和当前（底部）模型处理，将图像映射到它们各自的输出空间。与标准ICL方法一样，我们应用交叉熵损失来学习新类（蓝色块），并应用蒸馏损失来保存旧知识（黄色块）。在这个框架中，我们通过以下方式对不同学习步骤中背景的语义变化进行建模：（i）使用旧背景分类器的权重（左）初始化新分类器，（ii）将交叉熵中的像素级背景真实值与具有背景（黑色）或旧类（粉红色和灰色条）的概率进行比较，以及（iii）将给定的背景概率蒸馏损失中的旧模型，具有背景或新类别的概率（绿色条）。位置。让我们用X表示输入空间（即图像空间），并且不失一般性地，让我们假设每个图像x∈ X由具有恒定基数的像素集合I组成|我|=N. 输出空间被定义为YN，后者表示N元组与标签空间Y中的元素的乘积集。给定图像x，语义分割的目标是为图像x的每个像素xi分配一个标签yi∈ Y，表示其语义类别。类外像素可以被分配一个特殊的类，即。背景类b ∈Y。在给定训练集T ∈ X × YN的情况下，该映射是通过从图像空间X中学习一个带参数θ的模型fθ到逐像素类概率向量，即fθ：X<$→IRN×| Y|.得到的输出分割掩码为y_n={arg maxc∈Yfθ（x）[i，c]}N，其中fθ（x）[i，c]是像素i中c类的概率。在ICL设置中，训练通过多个阶段，称为学习步骤，每一步都引入要学习的新类别换句话说，预测器fθt是通过深度架构实现的，这对应于微调训练集Tt上的网络参数，该训练集Tt用前一阶段的参数θt-1初始化。这种方法很简单，但它会导致灾难性的遗忘。事实上，当使用Tt训练时，没有来自先前看到的对象类的样本是亲的，vided。这使得新的预测因子fθt偏向于Ct中的新类别集，从而损害了先前集合中的类别在用于图像级分类的ICL的上下文中，解决该问题的标准方法是将Tt上的监督损失与正则化项耦合，考虑到每个参数的重要性以前的任务[17，31]，或者通过使用旧模型fθt−1[18，28，3]的预测来提取知识我们从后一种解决方案中获得灵感，以初始化我们问题的总体目标函数。特别地，我们最小化损失函数的形式：Σ 。tΣt θ θ在第t个学习步骤中，扩展先前的标签集Yt-1用一组新的类Ct，产生一个新的标签集L（θ）=| Tt|（x，y）∈Ttce（x，y）+λ（一）Yt=Yt−1<$Ct。在学习步骤t中，我们还提供了用一个训练集Tt <$X ×（Ct）N，在那里，是标准的监督损失（例如，交叉熵前一个模型fθt−1：X <$→ IRN×| Y不t−1| to train损失），λkd是蒸馏损失，λ >0是超平衡这两项重要性的参数。更新的模型fθt：X <$→IRN×| Y|. 与标准ICL一样，在本文中，我们假设在不同的学习步骤中获得的标签集Ct是不相交的，除了对于特殊的void/background类B。3.2. 基于背景建模的语义分割增量学习算法解决ICL问题的一种简单方法是在每个集合Tt上依次重新训练模型fθt当如第二节所述。3.1，与用于图像分类问题的标准ICL集不同，在语义分割中，我们有两个不同的标签集Cs和Cu共享公共的空/背景类b。怎么-背景类的分布在不同的不同的增量步骤。事实上，T t中给出的背景注释指的是Ct中不存在的类，这可能是可见类Yt-1的集合和/或仍然不可见的类，即。u> t（见图）。1）。在下面，我们9236XXXceXXθXXXXX展示了我们如何解释语义转移的背景类的分布，通过重新审视标准的选择，在方程中定义的一般目标。（一）.重新审视交叉熵损失。由方程式（1）、一种可能其中qt（i，c）定义为像素i的类c的概率，由fθt给出，但在Yt−1中的所有类中重新归一化，即：.选择的熵是标准的交叉熵损失计算，0如果c∈ Ct\{b}ce在所有图像像素上：t1Σq<$x（i，c）=qt（i，c）/<$ qt（i，k）如果c ∈Yt−1。k∈Yt−1（六）θ（x，y）=−|我|i∈Ilogqt（i，yi），（2）Ekd背后的基本原理是fθt应该产生接近于fθt−1产生的活动。这个普通的-其中yi∈ Yt是与像素相i和qt（i，c）= fθt（x）[i，c].关于Eq的问题（2）我们用来更新模型的训练集Tt只包含关于Ct中新类的信息。然而，Tt中的背景类可能还包括与Yt-1中先前看到的类相关联的像素。在本文中，我们认为，如果不考虑这一方面，灾难性的-问题会更加严重。事实上，我们会驱动我们的模型来预测旧类别像素的背景标签b，进一步降低模型保留过去类别语义知识的能力。为了避免这个问题，在本文中，我们建议修改方程中的交叉熵损失。（2）如下：将训练过程以这样的方式进行，即参数θt仍然锚定到用于识别先前类的像素所找到的解，即， θt−1。在Eq中定义的损失。（5）已经在不同的上下文中以其基本形式或变体使用，从对象分类中的增量任务[18]和类学习[28，3]到复杂场景，如检测[32]和分割[24]。尽管它取得了成功，但它在语义分割方面有一个根本性的缺点：它完全忽略了背景类在不同学习步骤之间共享的事实。与EQ。（3）我们解决了第一个与背景语义转移有关的问题（即，b∈ Tt包含Yt−1的像素），我们使用蒸馏损失来解决第二个问题：具有s t的Ts中背景的注释可能包含Ct中类的像素。t1x，y=−Σ logqt（i，yi），（3）从后面的考虑，背景可能-其中：qt（i，c）=|I| i∈I.qt（i，c）ifcb（四）由旧预测器fθt−1和由当前模型fθt不共享相同的语义内容。更重要的是，fθt−1可以作为我们当前试图学习的Ct通知这方面是分割任务所特有的，X轴k∈Yt−1 qt（i，k）如果c= b.在以前的增量学习模型中没有考虑。我们的直觉是，通过使用Eq。（3）我们可以更新模型以预测新的类，并且同时考虑背景类的实际内容的不确定性事实上，在Eq。（3）背景类地面真值不直接与其概率qt（i，b）进行然而，在我们的设置中，我们必须明确地考虑到它，以正确地将旧模型升华为新模型。在这种程度上，我们定义我们的新的蒸馏损失重写qt（i，c）在方程。（6）如：.X从目前的模型fθt，但与概率-qt（i，c）=qt（i，c）ifcbΣx（七）具有旧类或背景的可能性，如由fθt（等式2）预测的。（四））。的示意图Xk∈Ctqt（i，k）如果c = b。这一过程如图11所示。2（蓝色块）。值得注意的是，忽略交叉熵损失内的背景像素的替代方案事实上，这将不允许使背景分类器适应其语义转变，并且不允许利用新图像可能包含的关于旧类的信息。重新审视蒸馏损失。在增量学习的背景下，蒸馏损失[14]是将知识从旧模型fθt−1转移到新模型中的常见策略，以防止灾难性遗忘。形式上，蒸馏损失Δkd的标准选择为：与Eq类似。（5），我们仍然比较像素属于由旧模型分配的可见类的概率，与用当前参数θt计算的对应像素的概率。然而，与经典蒸馏不同，在Eq.（7）用当前模型得到的概率保持不变，即，在整个标签空间中进行归一化Yt，而不是相对于子集Yt-1（等式（6））。更重要的是，背景类概率由下式给出：fθt−1并不直接与fθt中的对应物进行比较，而是与由9237fθt预测的具有新类或背景的概率进行比较（见图2）。2，黄色块）。θt1t−1t我们强调，关于Eq。（6）其他简单选择（例如，从等式中排除b（6）该解决方案具有两个kd（x，y）=−|我|i∈Ic∈Yt−1Qx（i，c）logqx（i，c），（5）优势首先，我们仍然可以使用9238XωXβXCC旧模型提取当前模型中的知识，而不对像素和类进行任何约束。第二，我们可以传播我们在fθt−1中背景语义内容上的不确定性，而不会惩罚我们在当前步骤t中学习的新类的概率。分类器参数如上所述，背景类别b是专门用于收集像素属于未知对象类别的概率的特殊类别在实践中，在每个学习步骤t，Ct中的新类别对于旧分类器fθt−1来说是未知的。因此，除非Ct中的类的出现非常类似于Yt−1中的一个，因此可以合理地假设fθt−1可能会将Ct的像素分配给b。考虑到在Ct的像素上的fθt的预测上的这种初始偏差，随机地初始化新类别的分类器是有害的实际上，随机初始化将引起由模型提取的特征（与背景分类器对准）和分类器本身的随机参数之间的不对准请注意，这可能会导致在学习新类时可能出现的训练不稳定性，因为网络最初可能会分配高概率，对于C中的像素，t到b的能力。为了解决这个问题，我们建议以这样的方式初始化新类别的分类器Ct，即 qt（i，c）=qt−1（i，b）/|Ct|c∈Ct，其中|Ct|是新类的数量（注意b∈ Ct）。在这种程度上，让我们考虑一个标准的全连接分类器，并让我们表示为{ωt，βt}∈θt的分类器参数，4. 实验4.1. ICL基线我们将我们的方法与标准ICL基线进行比较，该基线最初是为分类任务设计的，在考虑的分割任务上，因此分割被视为像素级分类问题。具体来说，我们报告了六种不同的基于正则化的方法，三种以先验为中心的方法和三种以数据为中心的方法的结果。在第一类中，我们选择了弹性权重合并（EWC）[17]，路径积分（PI）[36]和黎曼游动（RW）[4]。他们采用不同的策略来计算每个参数对旧类的重要性：EWC使用经验Fisher矩阵，PI使用学习轨迹，而RW将EWC和PI结合在一个独特的模型中。我们选择EWC，因为它是[32]中采用的标准基线，而PI和RW是相同原理的两个简单应用。由于这些方法在参数级别上起作用，为了使它们适应分割任务，我们保持输出空间中的损失不变（即，整个分割掩码上的标准交叉熵），通过考虑参数对学习旧类的影响来计算参数对于以数据为中心的方法，我们选择了无遗忘学习（LwF）[18]，LwF多类（LwF-MC）[28]和[24]的分割方法（ILT）。我们表示作为LwF，原始蒸馏为基础的目标，如实施方程。（1）具有基本的交叉熵和蒸馏损失，除了蒸馏和交叉熵共享相同的标签空间和分类器之外，与[18]相同。LwF-MC是[18]的单头版本，在学习步骤t处的类c，其中ω和β表示其权重和偏差。我们可以如下初始化{ωt，βt}（28）。它基于多个二进制分类器，目标标签使用小说的基础事实C c类（即，Ct）和旧模型给出的概率.对于旧的（即，Yt−1）。由于背景类是ωt=t−1B如果c∈Ct（八）在Ct和Yt−1 我们通过一个加权ct−1C. t−1否则t t两个二进制交叉熵损失的组合，在地面真值和由fθt−1给出的概率上。最后，βt=1998年，李嘉诚（|C|）如果c∈ C（九）ILT [24]是专门为ICL提出的唯一方法ct−1C否则在语义分割中。它在输出空间中使用蒸馏损失，如我们的LwF [18]的改编版本和/或特征空间中的另一个蒸馏损失，附加到其中{ωt−1，βt−1}是后向的权重和偏置b b网络解码器的输出在这里，我们使用变量-地面分类器在前一个学习步骤。的事实在Eq.（8）和（9）导致qt（i，c）=qt−1（i，b）/|Ct|c∈Ct很容易从这两种损失都被利用了。正如[32]所做的那样，我们不与基于重放的方法（例如，[28]）x x他们违反了关于联合国的标准ICL假设qt（i，c）<$exp（ωt·x+βt）.xb b正如我们将在实验分析中显示的那样，这个简单的初始化过程在提高模型的学习稳定性和最终结果方面都带来了好处，因为它减轻了Eq.（3）在学习新课程的同时，遵循用于推导蒸馏损失的相同原理（方程式2）。（七））。旧数据的可用性。在所有的表格中，我们报告了另外两个基线：每个Tt上的简单微调（FT）（例如.当量（2））和所有课程的离线培训（联合）。后者可以被视为一个上限。在表中，我们将我们的方法表示为MiB（建模用于语义分割中的增量学习的背景所有结果均报告为平均值ω9239表1：Pascal-VOC 2012数据集上不同增量类学习场景的平均IoU19-1 15-5 15-1方法不相交重叠不相交重叠不相交重叠1-1920所有 1-1920所有1-15 16-20 所有 1-15 16-20 所有 1-15 16-20所有1-15 16-20所有FT5.812.36.26.812.97.11.133.69.22.133.19.80.21.80.60.21.80.6[36]第三十六话5.414.15.97.514.07.81.334.19.51.633.39.50.01.80.40.01.80.5EWC [17]23.2 16.0 22.926.9 14.0 26.326.737.729.424.335.527.10.34.31.30.34.31.3Rw [4]19.4 15.7 19.223.3 14.2 22.917.936.922.716.634.921.20.25.41.50.05.21.3LwF [18]53.09.150.851.28.549.158.437.453.158.936.653.30.83.61.51.03.91.8[28]第二十八话63.0 13.2 60.564.4 13.3 61.967.241.260.758.135.052.34.57.05.26.48.46.9ILT [24]69.1 16.4 66.467.1 12.3 64.463.239.557.366.340.659.93.75.74.24.97.85.7MIB69.6 25.6 67.470.2 22.1 67.871.843.364.775.549.469.046.212.937.935.113.529.7联合77.4 78.0 77.477.4 78.0 77.479.172.677.479.172.677.479.172.677.479.172.677.4交集对并集（mIoU）的百分比，对学习步骤的所有类和所有步骤进行平均。4.2. 实现细节对于所有方法，我们使用Deeplab-v3架构[6]，具有ResNet-101 [13]主干和输出步幅16。由于内存需求是语义分割中的一个重要问题，因此我们使用就地激活的批量归一化，如[29]中所提出的。主干已经使用ImageNet预训练模型初始化[29]。我们遵循[6]，使用SGD和相同的学习率策略，动量和权重衰减来训练网络。我们使用初始学习率10−2作为第一个学习步骤，10−3作为后续步骤，如[32]所示。在每个学习步骤中，我们使用24个批次大小对Pascal-VOC 2012进行30个epoch的训练，并对ADE 20 K进行60个epoch的训练。我们应用与[6]相同的数据增强，并裁剪图像512×512，在训练和测试中。为了设置每个方法的超参数，我们使用[9]中定义的增量学习，使用20%的训练集作为验证。在数据集的标准验证集上报告最终结果。4.3. Pascal VOC 2012PASCAL-VOC 2012 [11]是一个广泛使用的基准测试，包括20个前景对象类。在[24，32]之后，我们定义了两个实验设置，这取决于我们如何对图像进行采样以构建增量数据集。在[24]之后，我们定义了一个称为不相交设置的实验协议：每个学习步骤包含一组唯一的图像，其像素属于当前或先前学习步骤中看到的类。与[24]类似，在每一步中，我们假设只有新类别的像素标签，而旧类别则被标记为地面真值中的背景。第二个设置，我们表示为重叠，遵循[32]中的检测方法：每个训练步骤包含具有新类别的至少一个像素的所有图像，仅对后者进行注释。重要的是要注意与以前的设置的差异：图像现在可能包含我们会在未来学习，但被标记为背景。这是一个更真实的设置，因为它不对图像中存在的对象进行任何假设。正如以前的作品[32，24]所做的那样，我们进行了三个不同的实验，涉及添加一个类（19-1），一次添加五个类（15-5），以及顺序添加五个类（15-1），按照类的字母顺序划分每个学习步骤的内容。增加一个类（19-1）。在这个实验中，我们进行了两个学习步骤：第一个是我们观察到的第一个十九节课，第二节我们学的是电视监控课。结果报告于表1中。如果不使用任何正则化策略，过去类的性能会显着下降FT，事实上，表现很差，完全忘记了前19节课。出乎意料的是，使用PI作为正则化策略并没有带来好处，而EWC和RW将性能提高了近15%。然而，以先前为重点的战略与以数据为重点的战略相比并不具有竞争力。事实上，LwF、LwF-MC和ILT在很大程度上超过了它们，证实了这种方法在防止灾难性遗忘方面的有效性。虽然ILT超过了标准的ICL基线，但我们的模型能够获得进一步的提升。这种改进对于新类来说是值得注意的，我们在mIoU中获得了11%特别有趣的是，将我们的方法与基线LwF进行比较，基线LwF使用与我们相同的原理，但没有对背景进行建模。与LwF相比，我们实现了约15%的平均改善，从而证明了在ICL中对语义分割进行背景建模的重要性。这些结果在不相交和重叠的情况下是一致的。单步添加五个类（15-5）。在此设置中，我们在第一个训练集之后添加以下类：植物，羊，沙发，火车，电视监视器。结果报告于表1中。总的来说，前15个类的行为与19-1设置一致：FT和PI遭受了很大的性能下降，以数据为中心的策略（LwF，LwF-MC，ILT）远远优于EWC和RW，而我们的方法得到了9240表2：不同增量类学习场景下ADE 20K数据集上的平均IoU100-50 100-10 50-50方法1-100 101-150所有1-100 100-110 110-120 120-130 130-140 140-150所有1-50 51-100 101-150所有FT0.024.98.30.00.00.00.00.016.61.10.00.022.07.3LwF [18]21.125.622.60.10.00.42.64.616.91.75.712.922.813.9[28]第二十八话34.210.526.318.72.58.74.16.55.114.327.87.010.415.1ILT [24]22.918.921.60.30.01.02.14.610.71.48.49.714.310.8MIB37.927.934.631.810.414.812.813.618.725.935.522.223.627.0联合44.328.238.944.326.142.826.728.117.338.951.138.328.238.9表3：Pascal-VOC 2012重叠设置上拟定方法的消融研究。CE和KD表示我们的交叉熵和蒸馏损失，而初始化我们的初始化策略。我们修改的交叉熵（CE）的基线：这增加了在所有设置中保存旧知识的能力，而不会损害（15-1）甚至改善（19-1，15-5）新类的性能。第二，我们加入了我们的新-19-115-515-1模型的损失（KD）我们的KD提供了1-1920所有1-15 16-20 所有 1-15 16-20所有新老班级的表演那个...LwF [18] 51.2 8.5 49.158.9三十六点六53.31.0 3.91.8对旧类的证明是显著的，特别是在+CE57.6 9.9 55.263.238.1 57.0 12.0 3.79.915-1情景（即22.8%）。对于小说类，IM-+KD+init66.0 11.970.2 22.163.367.872.9四十六点三75.5四十九点四66.369.034.8 4.535.1十三点五27.2证明是不断的，特别是在29.715-5情景（7%）。请注意，这方面是特殊的，最佳结果，获得更接近联合训练上限的性能对于不相交的情况，我们的方法在最佳基线4上有所改进。6%的旧类，2%的新类和4%的所有类。这些差距在重叠设置中增加，在所有情况下，我们的方法超过基线近10%，清楚地表明了它能够利用背景类中包含的信息。五个类的多步加法（15-1）。此设置与前一个设置类似，不同之处在于最后5个类是依次学习的。从表1中我们可以观察到，执行多个步骤是具有挑战性的，并且实验方法在这种设置下效果不佳，在旧类和新类上的性能都低于7%。特别是，FT和先前聚焦的方法无法防止遗忘，使其预测完全偏向新类，并且在前15个类上表现出接近0%的性能即使是以数据为中心的方法在这种情况下也会遭受巨大的性能损失，从单步到多步的情况下，所有类的得分都会下降50%以上。另一方面，我们的方法仍然能够取得良好的性能。与其他方法相比，MiB在两个旧的（46。2%的不相交和35。1%的重叠），和新的（近13%的两个设置）类。正如整体性能下降（所有类下降11%）所示，重叠场景是最具挑战性的场景，因为它没有对后台中存在哪些类施加任何约束消融研究。在表3中，我们报告了我们的贡献的详细分析，考虑到重叠的设置。我们从采用标准交叉熵和蒸馏损失的基线LwF [18]我们首先添加到我们的KD自标准制定以来，只是在保留旧知识。这表明这两种损失是相互有利的。最后，我们添加了分类器该组件在每个设置中提供了改进，特别是在新课程中：它使19-1设置的性能加倍（22，1%对11. 9%）和15-1（4. 5%对13. 5%）。这证实了在初始阶段考虑背景变化的重要性，以促进新课程的学习。4.4. ADE20KADE20K [39]是一个包含150个类的大规模数据集从Pascal-VOC 2012开始，这个数据集包含两个东西（例如，天空、建筑物、墙）和对象类。我们通过将整个数据集分割成不相交的图像集来创建增量数据集Tt，而没有任何连接。除了确保最小数量的图像（即，50)其中Ct上的类具有标记的像素。显然，每个Tt只为Ct中的类提供注释，而其他类（旧的或将来的）则作为背景出现在地面真相在表2中，我们报告了两个不同类别订单的平均结果：[39]提出的订单和随机订单。在这个实验中，我们比较了我们的方法与数据集中的方法（即。LwF、LwF-MC和ILT），因为它们的性能与以前的重点相比存在差距。一步添加50个类（100-50）。在第一个实验中，我们最初在100个类上训练网络，然后一次性添加剩下的50个类。从表2中我们可以看出，FT在大规模设置中显然是一个糟糕的策略，因为它完全忘记了旧知识。使用蒸馏策略使网络能够减少catastrophic遗忘：LwF获得21分。1%在过去的类，ILT9241图3：使用不同增量方法对ADE 20 K数据集的100-50设置的定性结果。该图像显示了我们的方法在两个新的（例如，建筑物、地板、桌子）和旧的（例如，车、墙、人）类。从左到右：图像，FT，LwF [18]，ILT [24]，LwF-MC [28]，我们的方法和地面实况。最好用彩色观看二十二岁9%，LwF-MC 34。百分之二。关于新的类，LwF是最好的策略，超过LwF-MC 18。9%，ILT为6。百分之六。然而，我们的方法远远优于所有其他方法，在第一类和新类上有所改进。此外，我们可以观察到，我们接近联合训练上限，特别是考虑到新的类，其中相对于它的差距仅为0。百分之三。在图3中，我们报告了一些定性结果，证明了我们的方法与基线相比的优越性。多步添加50个类（100-10）。然后，我们评估多个增量步骤的性能：我们从100个类开始，然后将剩余的类以10乘10的方式添加，得到5个增量步骤。在表2中，我们报告了在最后一个学习步骤之后所有类集合的结果在这种情况下，FT，LwF和ILT的性能非常差，因为它们强烈遭受灾难性遗忘。LwF-MC展示了一种更好的能力来保存旧类的知识，代价是新类的性能下降。同样，我们的方法实现了学习新类和保留过去知识之间的最佳权衡，比LwF-MC好11。6%，考虑到所有类别。三个步骤的50类（50-50）。最后，在表2中，我们分析了50个类的三个连续步骤的性能。以前的ICL方法在学习新类和不忘记旧类之间实现了不同的权衡。LwF和ILT在新课程上获得了很好的分数，但他们忘记旧知识。相反，LwF-MC保留了前50个类的知识，而不能学习新的类。我们的方法比所有基线都好，差距为11。在最佳性能基准上达到9%，在每一步上都实现了最高的mIoU。值得注意的是，最大的差距是在中间步骤上，在那里有我们必须增量学习的类，并在随后的学习步骤中防止忘记。5. 结论我们研究了用于语义分割的增量类学习问题，分析了新训练集不为旧类提供注释的现实场景，导致背景类的语义转移并加剧灾难性遗忘问题。我们通过提出一种新的目标函数和分类器的初始化策略来解决这个问题结果表明，我们的方法优于基于正则化的ICL方法，考虑到小规模和大规模的数据集。 We hope thatour problem formulation, our approach and our extensivecomparison with previous methods will encourage futureworks on this novel research topic.9242引用[1] RahafAljundi ， FrancescaBabiloni ， MohamedElhoseiny，Marcus Rohrbach，and Tinne Tuytelaars.记忆感知突触：学习什么（不）忘记。在ECCV，2018。2[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE T-PAMI，39（12）：2481-2495，2017。2[3] FranciscoMCastro 、 ManuelJMa r'ın-Jime'nez 、 Nicola'sGuil、Cordelia Schmid和Karteek Alahari。端到端的增量学习。在ECCV，2018。一、二、三、四[4] Arslan Chaudhry 、 Puneet K Dokania 、 ThalaiyasingamAjan-than和Philip HS Torr.渐进学习的黎曼步行：理解遗忘和不妥协。在ECCV，2018。一、二、五、六[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE T-PAMI，40（4）：834一、二[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。2017. 一、二、六[7] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在CVPR，2016年。1[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。一、二[9] Matthias De Lange 、 Rahaf Aljundi 、 Marc Masana 、Sarah Parisot 、 Xu Jia 、 Ales Leonardis 、 GregorySlabaugh和Tinne Tuytelaars。持续学习：分类任务中抗遗忘策略的比较研究。2019. 二、六[10] Prithviraj Dhar ， Rajat Vikram Singh ， Kuan-ChuanPeng，Ziyan Wu，and Rama Chellappa.学而不厌。在CVPR，2019年。2[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊一、二、六[12] 戈尔纳兹·吉亚西和查利斯·C·福克斯。用于语义分割的拉普拉斯金字塔重构与精化。在ECCV，2016年。2[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。6[14] Geoffrey Hinton Oriol Vinyals和Jeff D

下载后可阅读完整内容，剩余1页未读，立即下载