没有合适的资源?快使用搜索试试~ 我知道了~
Dipam Goswami†§Ren´e Schuster†Joost van de Weijer‡Didier Stricker†Current Classifier Initialization methodProposed Classifier Initialization methodNew classes (t) Bkg (t-1)Data at step tChannel Attribution ModuleOld Model (step t-1)Channel Selection31950归因感知的权重转移:类增量语义分割的热启动初始化0dipamgoswami01@gmail.com rene.schuster@dfki.de joost@cvc.uab.es didier.stricker@dfki.de † DFKI - 德国人工智能研究中心,凯撒斯劳滕 § 比尔拉理工学院,皮拉尼 ‡ 计算机视觉中心,巴塞罗那0摘要0在类增量语义分割(CISS)中,深度学习架构面临灾难性遗忘和语义背景转变的关键问题。尽管最近的研究关注了这些问题,但现有的分类器初始化方法没有解决背景转变问题,并将相同的初始化权重分配给背景和新的前景类别分类器。我们提出了一种新的分类器初始化方法,通过基于梯度的归因来识别新类别的最相关权重,并将这些权重转移到新的分类器中,以解决背景转变问题。这种热启动权重初始化方法适用于多种CISS方法,并加速了新类别的学习,同时减轻了遗忘现象。我们的实验结果表明,在Pascal-VOC2012、ADE20K和Cityscapes数据集上,与最先进的CISS方法相比,mIoU有显著提高。01. 引言0语义分割将图像的每个像素分配给一个类别标签。深度神经网络的出现以及像素级注释数据集的可用性已经在语义分割任务上取得了最先进的性能。该领域的大多数论文认为所有类别在所有训练数据中都被标记,并且所有训练数据都是共同可用的。然而,对于许多应用来说,这是一个不现实的情况,算法必须学会从部分标记的数据中分割所有类别,并且每个时刻(在CISS中称为步骤)只能访问有限的训练数据。这种限制是由于数据存储限制或数据隐私和数据安全考虑而施加的。增量学习提出了适用于这种情况的算法,其中主要挑战是预测。0图1:分类器初始化方法的比较。分类器初始化被发现对于获得良好的增量学习器的可塑性是至关重要的。然而,该方法没有解决背景转变问题。以前的方法(左)将所有的滤波器权重从以前的背景(bkg)复制到初始化的新类别,而我们基于归因的权重选择(右)通过仅选择与新类别分类相关的权重来明确解决语义背景转变问题。这使我们能够将以前的初始化方法的可塑性与进一步减少灾难性遗忘相结合。0增量学习中的语义分割面临着两个关键问题:灾难性遗忘和语义背景转变。灾难性遗忘是指在之前学习的类别上性能下降的现象。CISS方法面临的另一个关键挑战是语义背景转变。这个挑战在增量图像分类中不存在,而是由于图像分割的多类别性质而产生的。在任何一步中,地面真值只提供当前类别像素的标签,并将所有其他像素视为背景,而模型应该正确地将旧的和当前类别的像素分类到它们的原始标签,将未来类别的像素分类为背景。因此,背景类别包括真实的背景类别、之前看到的类别和未来的类别。因此,由于背景类别在每一步中的定义发生变化,存在歧义。在本文中,我们强调了初始值的重要性。31960分类器的权重初始化对于新类别的稳定训练和更快的收敛至关重要。由于在每一步中,最终的分类器层必须预测新类别以及过去的类别,因此新类别的分类器权重应与模型提取的特征相匹配。因此,分类器权重的初始化对于模型的稳定训练和更快的收敛至关重要,从而减少对过去类别的遗忘。MiB[6]将分割的权重印记[40]用于适应新类别,并使用先前背景的分类器权重初始化新类别和背景。大多数最近的方法都遵循了这种初始化方法[7, 17, 48,53],但它并没有解决语义背景转移问题。相反,我们提出了一种新的热启动分类器初始化方法,明确解决了背景转移问题,将当前前景类别与以前的背景在分类器级别进行区分,如图1所示。我们建议通过从相关的分类器输入通道进行权重转移,将未来类别的学习从以前的背景转移到新类别。所提出的方法遵循严格的增量设置[35],不需要访问过去或未来类别的任何数据。我们使用多个CISS设置、类别顺序和消融实验验证了我们提出的方法。主要贡献可以总结如下:0•为了更好地解决背景转移问题,我们应用了一种归因方法来识别预测新类别的最相关的分类器通道,并仅传输那些通道的权重。0•我们的方法减少了对旧类别的灾难性遗忘,同时提高了对新类别的可塑性,加快了对新类别的收敛速度。0•我们的实验证明,我们的方法在多个增量设置和数据集上明显优于最先进的方法。02. 相关工作0语义分割:常用的分割方法基于全卷积网络(FCNs)[32]。这些方法通过使用多尺度表示[31]、使用空洞卷积[9]或上采样滤波器进行卷积,建模上下文线索[9]或使用注意机制[11,55]来提高准确性。最近的方法使用了沿宽度或高度维度的条带池化[22]来捕捉全局和局部统计信息。在我们的工作中,我们使用Deeplabv3[10]架构,该架构以并行方式使用空洞卷积,以便在多个尺度上捕捉多尺度上下文以分割多尺度的对象。0增量学习:大多数增量学习的研究集中在目标检测和分类问题上[5, 30, 41, 43,47]。其中一些方法使用基于回放的方法,存储来自先前任务的样本[5, 41]或生成训练数据[25,42]。一些方法扩展初始架构以学习新类别[29,49],或使用嵌入网络[51],或使用分类器漂移校正来适应不断变化的类别分布[3,4]。基于蒸馏的方法通过对权重[1, 26]、梯度[8,33]或中间特征[16, 19,23]进行惩罚来约束模型对新任务的学习。我们的工作侧重于基于蒸馏的语义分割方法。类别增量语义分割:最近,增量学习已经在语义分割中进行了研究[6, 7, 17, 18, 24, 27,37, 38,50]。最初的方法使用旧任务的相关示例,并在医学成像[39]和遥感数据[46]中进行分割的回放。Michieli等人[37]在学习新任务时考虑了旧类别的标签可用性。Cermelli等人[6]首次强调了语义背景转移,并提出了一种新的蒸馏方法来解决这个问题。Douillard等人[17,18]提出使用多尺度空间蒸馏损失来保留短距离和长距离依赖关系。Cha等人[7]提出了SSUL,除了冻结骨干网络和过去的分类器外,还考虑了一个单独的类别用于旧和未来类别,UCD[48]提出了对相同类别像素的特征进行相似性约束,并减少不同类别像素的特征相似性。RCIL[53]解耦了旧类别和新类别的学习,并在通道和空间维度上引入了池化立方体知识蒸馏。回放先前类别的样本也被用于CISS,通过存储旧任务的图像[7]或使用生成网络重新创建它们[34]。还提出了使用无标签数据的自训练方法[50]。我们提出了一种在[6, 7, 17, 48,53]中用于分类器初始化的语义背景转移建模方法,而不使用任何来自先前步骤的数据。归因方法:特征归因方法为给定输入分配重要性分数,这些分数负责类别预测。现有的归因方法基于扰动或反向传播。扰动方法[52]通过移除或屏蔽输入特征来计算输入特征的归因,并进行前向传递以测量输出的差异。反向传播方法通过进行一次前向和反向传递来计算输入特征的归因。其中一些方法包括DeepLIFT[44]、Integrated Gradients [45]和Layer-wise RelevancePropagation (LRP) [2]。我们使用流行的IntegratedGradients[45]方法,它不需要对网络进行任何修改,并且实现简单。Input imageGround truth maskAttribution map (a)Attribution map (b)319703. 提出的权重转移方法03.1. 类增量语义分割0考虑一幅图像x和标签空间C,语义分割的目标是为x中的每个像素分配一个标签ci∈C。在给定训练集T的情况下,学习一个具有参数θ的模型fθ,将输入图像映射到像素级别的类别概率。在增量设置中,模型在t=1...T步中进行学习。增量步骤t的训练集为Tt={(xt1,yt1),...,(xtnt,ytnt)},其中xti∈Xt是图像集合,yti∈Yt是对应的真实标签图,新的类别集合Ct被添加到现有的类别集合C1:t-1中。由于背景类在所有增量步骤中都存在,我们将其表示为bt,第t步的模型表示为fθt,学习参数为θt。对于图像xti∈Xt,真实的分割标签图yti∈Yt只提供了当前类别Ct的标签,将所有其他标签(旧类别C1:t-1和未来类别Ct+1:T)合并为背景类bt。第t步之后的模型应该能够预测所有随时间学习的类别C1:t。在这里,真实的背景类像素和未来类别Ct+1:T的像素都应该被预测为背景bt。因此,第一步后被分类为背景的未来类别在增量步骤中逐渐成为前景。在最后一步的推断中,只有真实的背景类应该被分类为背景。03.2. 现有初始化方法存在的问题0我们讨论了现有的初始化方法及尚未解决的问题。由于Ct的像素在上一步被学习为背景bt-1,旧模型fθt-1很可能将这些像素分配给类别bt-1。为了解决fθt对Ct像素的初始偏见,Cermelli等人提出了一种初始化分类器权重的方法,将Ct中的类别(包括背景)的权重与先前背景类别的权重相同,以使背景类别的概率在Ct中的类别(bt∈Ct)中均匀分布。重要的是要注意,这种分类器初始化被发现对于实现良好的可塑性至关重要。对于几种设置,分类器初始化使第一步后学习的类别的性能提高了一倍以上(例如参见[6]中的表3)。然而,这种直接将分类器的权重从背景转移到新类别并没有直接解决背景到前景的类别转移问题,这是CISS问题的主要挑战之一。背景分类器权重是为真实背景和未来类别Ct+1:T学习的,但直接转移会导致模型最初将Ct+1:T和真实背景类别的像素高概率地分配给Ct而不是bt。0图2:与分类器层的不同通道对应的背景(bkg)类别的归因图。新的类别(sheep,sofa,monitor)属于上一步的bkg。归因图(a)对预测真实的bkg像素有很大贡献,不预测新类别,而归因图(b)对预测新类别像素作为bkg有更大贡献。03.3. 新颖的热启动分类器初始化0为了明确解决初始化阶段的背景转移问题,我们提出了基于归因的权重转移(AWT),如图3所示。AWT旨在仅将重要的分类器通道权重从背景bt-1转移到Ct中的新类别。我们使用归因方法选择先前步骤中背景的分类器权重,这些权重在预测Ct中的新类别像素作为bt-1时具有重要贡献。0(如图2所示)。在这里,我们利用背景分类器使用不同通道学习不同表示的能力。这种选择将 C t中的新类别和未来类别的分类器级别权重分开。AWT的目标是不将未来类别 C t +1: T的重要分类器权重转移到新类别,从而保持模型的稳定性并加速新类别的学习。03.3.1 归因感知通道选择0Integrated Gradients [45]近似计算模型输出相对于输入的梯度积分,沿着从基线到输入的直线路径。这里,基线是计算积分的起始点,取空白(零)输入。我们使用 Integrated Gradients归因方法,为预测背景 b t − 1的分类器层的输入分配重要性分数。有关 IntegratedGradients 的更多细节,请参阅补充材料。….…………….¯yti[m] =�ttA(xti) ⊙ ¯yti(2)31980C0通道归因0地面真值0步骤 t的背景掩码0通道掩码0步骤 t-1 后的网络0步骤 t 的网络0图像0>k0- 逐元素相乘0(W, H, C)0(W, H, C)0(W, H, X)0(W, H, X+1)0步骤 t 的样本0新类别掩码归因方法0(W, H, C)0(W, H, C)0归因图 (b) 归因图 (a)0层归因0初始化分类器0对步骤 t的所有样本取平均0掩码归因0池化0步骤 t的地面真值0图3:AWT 概述:将当前步骤的图像提供给步骤 t − 1的旧模型。分类器层的输入用于生成层归因。在这里,对于新类别像素,归因图 (b) 比图 (a)更重要。我们使用地面真值对背景像素的归因图进行掩码处理。对步骤 t的所有图像的掩码归因进行平均池化,得到通道归因。然后使用阈值 k选择重要的通道,将这些通道权重传递给新类别的分类器权重。0我们使用当前训练集 X t 的图像和旧模型 f θ t − 1来计算分类器层每个输入通道的归因图。由于旧类别和未来类别的像素在步骤 t的地面真值图中标记为 b t,我们通过对属于 b t 的像素 m进行掩码处理,仅获得新类别的地面真值掩码 ¯ y t i。0如下所示:01 否则 (1)0我们使用地面真值掩码 ¯ y t i 来获取仅与 C t中新类别的像素对应的归因。由于我们仅考虑 C t中每个新类别的一组通道掩码,我们将来自 X t中所有图像的掩码归因取平均值。设 A为分类器层的归因图集合,每个图像在 X t 中使用Integrated Gradients 方法获得,大小为 W × H ×C,则我们按以下方式获得平均归因:0A avg = 10n t0其中 ⊙ 表示沿空间维度的逐元素相乘。0对背景 b t − 1 的分类器权重进行平均归因 A avg的最大池化,得到每个通道的归因值。我们将大小为 W ×H × C 的平均归因图转换为大小为 C 的通道归因 Ac,通过沿通道轴进行池化操作:0Ac[c]=maxw∈[1,W],h∈[1,H](Aavg[w,h,c])(3)0其中c∈[1,C]。请注意,我们根据第4.3节的实验选择最大池化而不是平均池化。03.3.2 分类器初始化0将阈值k应用于通道属性以获得通道掩码cmask,以选择最具贡献的通道,如下所示:0cmask[c]=01,如果Ac[c]>k,否则为0(4)0其中Ac表示通道属性,c表示通道。设步骤t的类c的分类器权重为wtc,步骤t−1的背景的分类器权重为wt−1b。我们建议使用所选通道的初始化类别的分类器权重。31990权重如下:0wtc=0wt�c + wt−1b ∙ cmask,如果c∈Ct\bt0wt−1c,否则为wt−1c(5)0其中wt�c是默认初始化的权重。我们通过将掩码权重添加到默认权重之上来传输掩码权重,从而避免剩余通道的权重为零。我们在第4.3节中展示了相对于复制而言添加权重的益处。04. 实验04.1. 实验设置0数据集:我们使用不同的增量拆分在分割数据集PascalVOC 2012 [20]、ADE20K [56]和Cityscapes[13]上进行实验。Pascal VOC 2012[20]包含20个对象(或物品)类和一个背景类。ADE20K[56]是一个包含150个物品和物质(不可数或无定形区域,如天空或草地)类的大规模数据集。Cityscapes[13]有19个物品和物质类,涵盖了21个不同城市的场景。CISS协议:[6]介绍了两种不同的CISS设置,即不相交和重叠。不相交设置假设未来的类是已知的,并从当前步骤中删除具有未来类的图像,而重叠设置更加现实,没有这样的假设。与[7,17]类似,我们在实验中也遵循重叠设置。我们将不同的设置表示为X-Y,其中X是初始步骤中的类数,Y是每个步骤中的类数,直到看到所有类为止。我们在VOC上进行15-5(15个类,然后每个步骤中的1个类),15-1(每个步骤中的15个类,然后1个类),5-3和10-1设置的训练。类似地,我们在ADE20K上进行100-50、100-10、100-5和50-50的训练,以及在Cityscapes上进行14-1和10-1的训练。指标:在最后一步之后,计算初始类集、增量类和所有类的平均交并比(mIoU)指标。初始类的mIoU反映了模型对灾难性遗忘的稳定性。增量类的mIoU反映了模型对学习新类的可塑性,而整体mIoU指标表示整体性能。实施细节:实验使用具有ResNet-101 [21]骨干网络在ImageNet[15]上预训练的Deeplab-v3[10],输出步幅为16。与[53]类似,我们使用更高的初始学习率,并为MiB获得了改进的基线。我们使用SGD和学习率为2×10−2进行MiB和MiB+AWT模型的训练,仅在第一步使用学习率为10−3的增量步骤。模型使用批量大小为24,在VOC和Cityscapes上使用2个GPU进行每个步骤30个时期的训练,在ADE20K上使用60个时期的训练。特定于SSUL模型,我们遵循相同的0由于它执行权重冻结并需要不同的训练超参数,因此将训练设置为[7]。最终结果是在数据集的验证集上报告的。由于Cityscapes没有真实的背景类,我们将未标记的类合并为一个虚拟的背景类。我们使用[28]中的层集成梯度来获取属性,并使用阈值k选择25%最重要的通道,以基于补充材料中提供的实验为基础的新类。对于每个新类的所有设置,我们获得一个唯一的通道掩码,其中类增量为5或更少。对于ADE20K上的100-10、100-50和50-50等设置,我们对所有新类使用单个通道掩码。代码公开可用1。基线:我们将我们的方法与最新的先进方法ILT [37]、MiB [6]、SDR[38]、PLOP [17]、SSUL [7]、RCIL [53]和UCD[48]进行比较。我们对两种方法MiB [6]和SSUL[7]应用AWT。我们还与上限(以非增量方式学习的联合模型)进行比较。我们不考虑使用过去步骤的数据[34]或辅助未标记数据[50]的方法。04.2. 定量评估0Pascal VOC 2012:我们在表1中展示了VOC15-5、15-1、5-3和10-1设置上的定量实验结果。我们观察到,虽然ILT在所有设置上都表现不佳,但其他方法都显示出了显著的改进。基于池化的蒸馏方法,如PLOP和RCIL,在15-5、15-1和10-1设置上表现更好,但在5-3设置上表现较差,因为初始步骤中的类别数量较少。MiB与UCD相结合的AWT在所有设置上的性能都优于MiB。在15-5上,我们的模型在整体mIoU指标上比MiB提高了1.5个百分点。在15-1设置中,我们的模型将初始类别的遗忘减少了11个百分点,同时整体性能提高了8.7个百分点。在5-3设置中,AWT相对于MiB将整体mIoU提高了4.3个百分点。在具有11个步骤的最具挑战性的10-1设置中,AWT将初始类别的遗忘减少了19.1个百分点,并将新类别的学习提高了4.2个百分点。SSUL与AWT[7]在15-5、15-1和5-3设置上的性能相似,而在具有挑战性的10-1设置中,它将初始类别的遗忘减少了1.8个百分点,并将新类别的性能提高了1.0个百分点。SSUL利用针对物体或对象的显著性图,将它们从背景中移动到未知类别,以表示未来的类别。这种标签增强方法改善了VOC所有设置上的性能,因为该数据集只包含对象类别。相反,这种基于显著性的建模方法不适用于ADE20K、Cityscapes和其他既有物体类别又有物品类别的数据集,而且SSUL在表2和表4中表现出了较高的遗忘率。01 https://github.com/dfki-av/AWT-for-CISSILT† [37]67.840.661.39.67.89.222.531.729.07.23.75.5SDR† [38]76.350.270.147.314.739.5---32.417.125.1PLOP [17]75.751.770.165.121.154.617.519.218.744.015.530.5MiB+UCD [48]78.550.771.551.913.142.2---33.726.531.1RCIL† [53]78.852.072.470.623.759.459.333.841.155.415.134.3ILT† [37]18.314.817.00.10.00.10.94.19.31.113.612.30.09.7PLOP [17]41.914.932.940.615.216.918.711.97.931.648.630.013.130.4PLOP+UCD [48]42.115.833.340.8-----32.347.1--31.8SSUL* [7]38.020.532.236.516.529.021.716.413.530.844.123.018.628.7Joint44.328.238.944.326.142.826.728.117.338.951.138.328.238.9ILT† [37]0.11.30.5PLOP [17]39.17.828.8RCIL† [53]38.511.529.6Joint44.328.238.932000表1:Pascal VOC2012上的实验结果。使用AWT进行改进的结果已用下划线标出。粗体表示每列中的最佳结果。†:结果摘自[53]。*表示结果来自重新实现。其他结果来自相应的论文。015-5 (2步) 15-1 (6步) 5-3 (6步) 10-1 (11步) 方法 0-15 16-20 所有 0-15 16-20 所有 0-5 6-20所有 0-10 11-20 所有0MiB [6] 75.5 49.4 69.0 35.1 13.5 29.7 - - - 12.3 13.1 12.7 MiB* [6] 76.4 49.4 70.0 48.1 15.8 40.458.2 41.3 46.1 14.1 13.8 13.9 MiB+AWT (我们的) 77.3 52.9 71.5 59.1 17.2 49.1 61.8 45.9 50.433.2 18.0 26.00SSUL [7] 77.8 50.1 71.2 77.3 36.6 67.6 72.4 50.7 56.9 71.3 46.0 59.3 SSUL+AWT (我们的) 78.050.2 71.4 77.0 37.6 67.6 71.6 51.4 57.1 73.1 47.0 60.70联合 79.8 72.4 77.4 79.8 72.4 77.4 76.9 77.6 77.4 78.4 76.4 77.40表2:ADE20K上的实验结果。使用AWT进行改进的结果已用下划线标出。粗体表示每列中的最佳结果。†:结果摘自[53]。*表示结果来自重新实现。其他结果来自相应的论文。0100-50 (2步) 100-10 (6步) 50-50 (3步) 方法 1-100 101-150 所有 1-100 101-110 111-120 121-130 131-140 141-150 所有 1-5051-100 101-150 所有0MiB † [6] 40.5 17.7 32.8 38.3 12.6 10.6 8.7 9.5 15.1 29.2 45.3 26.1 17.1 29.3 MiB* [6] 41.5 22.9 35.3 38.9 10.3 13.8 12.3 5.1 13.0 29.6 46.127.1 21.8 31.8 MiB+AWT (我们的) 40.9 24.7 35.6 39.1 14.3 31.9 24.4 20.6 15.2 33.2 46.6 30.1 23.6 33.50ADE20K:ADE20K[56]是一个具有150个类别的困难数据集,其联合模型的mIoU仅为38.9%。我们在表2中报告了ADE20K100-50、100-10和50-50的实验结果,并分析了增量类别的性能。我们还在表3中考虑了一个更长的100-5(11个任务)设置。在100-50设置中,我们的模型相比MiB提高了整体性能0.3个百分点。在50-50设置中,我们的模型相比MiB提高了整体性能1.7个百分点,并且相比RCIL提高了1.0个百分点。在包含6个步骤的100-10设置中,我们的模型相比MiB提高了3.6个百分点,并且相比PLOP+UCD提高了0.9个百分点。在包含11个步骤的100-5设置中,AWT相比MiB提高了4.6个百分点,并且相比最接近的方法SSUL提高了1.0个百分点。MiB+AWT在ADE20K的所有设置上都取得了最先进的结果,表明了对预测物体和场景类别的鲁棒性。Cityscapes:我们在Cityscapes[13]数据集的两个长序列设置(14-1和10-1)上进行了CISS实验。我们首先在10个类别(道路、人行道、建筑物、墙、栅栏、电线杆、灯、标志、植被、地形)上进行初始训练,然后逐个添加9个类别(天空、人、骑车人、汽车、卡车、公共汽车、火车、摩托车、自行车)。我们使用FT、PLOP、RCIL、SSUL、MiB和AWT(包括SSUL和MiB)进行评估,并在表4中报告mIoU结果。0表3:ADE20K上100-5设置的实验结果。使用AWT进行改进的结果已经用下划线标出。粗体字表示每列中的最佳结果。†:结果摘自[53]。*表示结果来自重新实现。0100-5(11个步骤) 方法 1-100101-150 全部0MiB † [6] 36.0 5.6 25.9 MiB* [6] 36.9 5.426.5 MiB+AWT(我们的方法) 38.6 16.031.10我们逐个添加9个类别(天空、人、骑车人、汽车、卡车、公共汽车、火车、摩托车、自行车)。我们使用FT、PLOP、RCIL、SSUL、MiB和AWT(包括SSUL和MiB)进行评估,并在表4中报告mIoU结果。FT0.010.12.50.04.82.2PLOP [17]55.712.344.852.224.139.6RCIL [53]55.77.143.651.017.435.9SSUL [7]43.233.040.738.638.138.3SSUL+AWT43.935.141.538.639.038.8MiB [6]56.312.545.451.630.141.9MiB+AWT55.919.846.951.237.244.9Joint56.754.356.151.761.456.1ng010203040506032010表4:Cityscapes上的实验结果。使用AWT进行改进的结果已经用下划线标出。粗体字表示每列中的最佳结果。所有结果均来自我们的实现。014-1(6个步骤) 10-1(10个步骤) 方法 1-1415-19 全部 1-10 11-19 全部0我们观察到,FT的整体mIoU非常低,而PLOP、RCIL和MiB在两个设置上的整体性能有所提升。SSUL在增量类别上表现较好,但在初始类别上遗忘非常严重,与其他方法相比。在14-1设置中,AWT与SSUL相比,整体mIoU提高了0.8个百分点,MiB+AWT相比MiB提高了1.5个百分点,在增量类别(15-19)的性能上提高了7.3个百分点。在更长的10-1设置中,SSUL+AWT相比SSUL将整体mIoU提高了0.5个百分点,MiB+AWT相比MiB提高了3.0个百分点,在增量类别(11-19)上提高了7.1个百分点。AWT显著提高了模型对学习新类别的可塑性,在两个设置上都取得了良好的效果。04.3.消融研究0我们通过对Pascal-VOC2012的15-1设置进行消融实验,分析了我们方法的有效性。选择性权重转移:我们在表5中分析了选择性权重转移方法的重要性。MiB[6]提出的权重转移相比不转移权重的情况更好。我们通过在不使用属性的情况下对通道进行随机选择的实验,展示了我们提出的AWT如何确保选择新类别的最重要通道。我们观察到,随机选择相同数量的通道(总通道的25%)并以与AWT相同的方式转移它们的权重,在初始和增量类别的数据集上表现不佳。设计选择:我们考虑了选择显著通道的替代方法,并在表6中进行了分析。在AWT中,我们首先对当前步骤的所有图像的属性图进行平均,然后进行最大池化。这里,我们考虑了先对所有图像进行通道池化,然后对池化值进行平均的替代方法。我们还考虑使用平均池化代替0表5:在Pascal-VOC2012上进行选择性通道权重转移的消融研究。0VOC(15-1)策略 滤波器的百分比 复制 添加 0-1516-20 所有0无转移 0 × × 45.7 5.3 36.1 MiB [6] 100 � × 48.1 15.840.4 随机 25 × � 46.3 6.1 36.8 AWT 25 � × 58.3 14.8 47.9AWT 25 × � 59.1 17.2 49.10表6:使用MiB [6] + AWT在Pascal-VOC2012上进行不同设计选择的消融研究。0VOC(15-1)MiB+AWT 0-1516-20 所有0Max-Pool = � 平均 55.2 14.5 45.5Avg-Pool = � 平均 58.3 14.1 47.8 平均= � Avg-Pool 57.6 14.2 47.2 平均 = �Max-Pool 59.1 17.2 49.100-15 0-15 0-15 16-20 16-20 16-20 所有 所有 所有0度量0平均IoU0VOC 15-1的10个不同类别顺序0MiBMiB+AWT差异0图4:对于10个随机类别顺序的初始类别、新类别和所有类别的mIoU的箱线图。0最大池化。我们通过实验证明,均值后跟最大池化是通道选择的最佳选择。随机类别排序:类别的顺序在CISS设置中起着重要作用。我们在VOC15-1设置中尝试了10种不同的类别顺序。我们在图4中展示了MiB和MiB+AWT的平均性能。我们还绘制了MiB+AWT和MiB在每个类别顺序上的差异,以展示我们的方法在使用随机类别序列时的鲁棒性。计算复杂性:属性模块所需的时间取决于新类别图像的数量。我们使用两个Nvidia RTXA6000GPU来训练模型。对于每个图像,计算属性大约需要0.68秒。对于VOC15-1,MiB+AWT的训练时间为10.32小时,而属性模块仅需要37分钟(占总训练时间的6%)。因此,与整个训练过程相比,属性模块的计算时间要少得多。有关进一步分析,请参阅补充论文。103MiBMiB+AWTMiBGTMiB+AWT32020步骤 0 1 - 14 步骤 1 15(卡车) 步骤 2 16(公交车) 步骤 3 17(火车) 步骤 4 18(摩托车) 步骤 519(自行车)0图像GT图像0图5:在Cityscapes的14-1设置中使用MiB和MiB+AWT进行预测的可视化。MiB对新类别有很大偏见,将公交车分类为火车(第一行),而MiB+AWT正确地将公交车分类为公交车(第二行)。0计算属性。对于VOC15-1,MiB+AWT的训练时间为10.32小时,而属性模块仅需要37分钟(占总训练时间的6%)。因此,与整个训练过程相比,属性模块的计算时间要少得多。有关进一步分析,请参阅补充论文。04.4. 定性评估0图5显示了MiB和MiB+AWT在Cityscapes的14-1设置上随时间的预测。MiB对新类别有偏见,从第3步开始忘记了学习到的类别(公交车),将公交车分类为火车。MiB+AWT在第5步仍然正确地将公交车分类为公交车。图6显示了在ADE20K的100-5设置上训练的MiB和MiB+AWT模型的预测。我们展示了MiB+AWT相对于MiB在类别(风扇)(第一行)、衣柜(第二行)和椅子、吊灯(第三行)的预测的改进。05. 结论和限制0在本文中,我们解决了CISS每个步骤中新前景分类器初始化时语义背景转移的问题。我们讨论了现有初始化方法的问题,然后提出了一种基于属性的方法来识别对新前景类别感兴趣的权重,并进行权重转移。这种选择性初始化考虑了类别从背景到前景的渐变过程。多个数据集上的实验结果表明,我们的方法减少了旧类别的遗忘,并进一步提高了可塑性。我们的权重转移方法在事物和物品类别上具有良好的泛化能力,并优于现有的CISS方法。这项工作为基于属性的权重初始化奠定了基础,这种方法可以更广泛地用于增量学习。0(a)图像0(b)MiB [6]0(c)MiB+AWT0(d)GT0图6:在ADE20K测试图像上使用MiB和MiB+AWT进行100-5设置的预测可视化。0尽管我们的方法在大多数增量设置下表现良好,但选择多个新类别的多个通道集合的策略会导致计算复杂度显著增加,特别是在每一步中增加10个、50个或更多类别时。我们相信未来可以解决这个限制。我们希望我们基于归因的通道选择方法能够在语义分割之外的其他计算机视觉应用中得到应用。0致谢。本工作部分资助来自德国联邦教育与研究部项目DECODE(01IW21001),部分资助来自西班牙政府资助项目PID2019-104174GB-I00/AEI/10.13039/501100011033。32030参考文献0[1] Rahaf Aljundi, Francesca Babiloni, Mohamed Elhoseiny,Marcus Rohrbach, and Tinne Tuytelaars.记忆感知的突触:学习要(不)忘记的内容.在欧洲计算机视觉会议(ECCV)上,2018年。0[2] Sebastian Bach, Alexander Binder, Gr´egoire Montavon,Frederick Klauschen, Klaus-Robert M¨uller, and WojciechSamek. 通过逐层相关传播解释非线性分类器决策的像素级解释.《PLOS One》,2015年。0[3] Eden Belouadah和Adrian Popescu. Il2m:双重记忆的类增量学习.在国际计算机视觉会议(ICCV)上,2019年。0[4] Eden Belouadah和Adrian Popescu. Scail:用于类增量学习的分类器权重缩放.在应用计算机视觉冬季会议(WACV)上,2020年。0[5] Francisco M Castro, Manuel J Mar´ın-Jim´enez, Nicol´asGuil, Cordelia Schmid, and Karteek Alahari. 端到端增量学习.在欧洲计算机视觉会议(ECCV)上,2018年。0[6] Fabio Cermelli, Massimiliano Mancini, Samuel Rota Bulo,Elisa Ricci, and Barbara Caputo.建模增量学习中的背景语义分割.在计算机视觉与模式识别会议(CVPR)上,2020年。0[7] Sungmin Cha, YoungJoon Yoo, Taesup Moon等. Ssul:基于示例的未知标签语义分割的类增量学习.在神经信息处理系统(NeurIPS)上,2021年。0[8] Arslan Chaudhry, Marc’Aurelio Ranzato, MarcusRohrbach, and Mohamed Elhoseiny.高效的终身学习与A-GEM.在学习表示国际会议(ICLR)上,2019年。0[9] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRF的语义图像分割.《模式分析与机器智能》(T-PAMI)期刊,2017年。0[10] Liang-Chieh Chen, George Papandreou, Florian Schroff,and Hartwig Adam. 重新思考用于语义图像分割的空洞卷积.《arXiv预印本》arXiv:1706.05587,2017年。0[11] Liang-Chieh Chen, Yi Yang, Jiang Wang, Wei Xu, and AlanL Yuille. 注意力尺度:面向尺度感知的语义图像分割.在计算机视觉与模式识别会议(CVPR)上,2016年。0[12] Liang-Chieh Chen, Yu
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- BSC关键绩效财务与客户指标详解
- 绘制企业战略地图:从财务到客户价值的六步法
- BSC关键绩效指标详解:财务与运营效率评估
- 手持移动数据终端:常见问题与WIFI设置指南
- 平衡计分卡(BSC):绩效管理与战略实施工具
- ESP8266智能家居控制系统设计与实现
- ESP8266在智能家居中的应用——网络家电控制系统
- BSC:平衡计分卡在绩效管理与信息技术中的应用
- 手持移动数据终端:常见问题与解决办法
- BSC模板:四大领域关键绩效指标详解(财务、客户、运营与成长)
- BSC:从绩效考核到计算机网络的关键概念
- BSC模板:四大维度关键绩效指标详解与预算达成分析
- 平衡计分卡(BSC):绩效考核与战略实施工具
- K-means聚类算法详解及其优缺点
- 平衡计分卡(BSC):从绩效考核到战略实施
- BSC:平衡计分卡与计算机网络中的应用
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)