没有合适的资源?快使用搜索试试~ 我知道了~
14045+RNananaanana学习分割尾部胡新亭1,姜毅2,唐凯华1,陈景源3,苗春燕1,张汉旺11南洋理工大学、2阿里巴巴集团、3达摩院、阿里巴巴集团jiangyi0425@gmail.com、xinting001@e.ntu.edu.sg、kaihua001@e.ntu.edu.sgjingyuanchen91@gmail.com、ascymiao@ntu.edu.sg、hanwangzhang@ntu.edu.sg摘要~你好基础课程培训蒸馏平衡重放重播+新数据少数学习现实世界的视觉识别需要处理前-大规模长尾数据中的样本不平衡我们b阿富汗bcat B猫阿夫林b为具有挑战性的LVIS任务提出一个“分而治之”的策略&:将整个数据分成平衡的部分,然后应用增量学习来克服每个部分。这就产生了一种新的学习范式:类增量少,~你好猫+元宵蓝特+CD播放机拉尔+无人机镜头学习,这对随着时间的推移而变化的挑战特别有效:(1)老年人的阶级不平衡-频繁1000+分类索引罕见课堂知识复习; 2)新课程学习中的少镜头数据。我们称之为学习分割尾部(LST)。特别是,我们设计了一个实例级平衡重放方案,这是一个内存有效的近似平衡的实例级样本从旧类图像。我们还建议使用元模块进行新类学习,其中模块参数在增量阶段之间共享,从数据丰富的头部到数据贫乏的尾部逐渐获得学习知识。 我们的经验表明:以牺牲一点头类遗忘为代价,我们可以在不到10个实例的情况下为尾类获得8.3%的AP显著提升,从而为整个1,230个类实现2.0%的AP提升。1. 介绍长尾分布固有地存在于我们的视觉世界中,其中少数头部类占据了大部分内容[48,1,37,44]。当我们对大规模数据集建模感兴趣时,这是不可避免的,因为自然界中的类观测概率遵循齐普夫因此,对抗自然并收集平衡的样本丰富的大规模数据集,以满足使用流行模型训练鲁棒视觉识别系统的需要是非常昂贵的[13,9,34,4]。在本文中,我们研究了一个实用的大规模视觉1代码可在https://github.com/JoyHuYY1412/LST_LVIS获得图1.拟议的“学习如何将LVIS的尾部(LST)方法[10]。为了解决严重的不平衡,我们将整个数据集划分为平衡的子部分Di,并逐阶段递增地训练实例分割模型θi。 我们使用知识蒸馏和提出的平衡重放来应对随着时间的推移越来越少的学习中的灾难性遗忘[28]。这里,θ3是合成模型。在具有挑战性的真实世界数据集上的识别任务:大词汇实例分割(LVIS)[10]。如图1所示,在1k+实例对象类中,每个类的训练实例数量从头部的数千个下降到尾部的几个(即,26k+只有一个“无人机”)。 经验研究表明,使用这种长尾数据集训练的模型往往会取悦常见的类,但会忽略罕见的类[10]。原因有二:1)类不平衡导致训练的头类比尾类多几千倍,以及2)长尾中的少量样本使得泛化成为一个巨大的挑战(即,约300个类,样本少于10个)。因此,LVIS的关键解决方案是不仅要很好地解决不平衡问题,还要解决大规模的少样本学习问题不幸的是,关于“不平衡”或“少数拍摄”的传统作品一方面,众所周知,对数据进行重新采样[12,3,11]-对罕见的尾部类进行上采样或对频繁的头部类进行下采样-可以防止训练由头部主导。然而,由于它们没有引入任何新的多样性,它们在尾部过度拟合和尾部过度肥胖之间的权衡中挣扎。不平衡#anana猫CD播放器14046不不重复的几个镜头的样品,和头部不足,- 大量样本的显著放弃。另一方面,将模型从数据丰富的“基础集”转移到数据贫乏的“新集”的传统少次学习此外,该量表还在最近基于元学习的方法[20,29]采用的情景训练[41解决规模问题的一个直观策略是将大型“主体”划分如图1所示,每个子集都更加平衡,更容易处理。本质上,LVIS的 范例:类增量 小镜头学习然而,将各部分缝合回一个整体的合并不再是简单地采用任何现成的类增量学习方法[33,36]。原因在于,与传统的类增量学习场景不同,我们的增量阶段随着时间的推移,将面临1)旧类的更多不平衡数据和2)新类的更少数据这使得网络在学习新类时更容易受到为了实现LVIS任务的新范式,我们提出了知识审查的平衡重放方案和基于元学习的权重生成器模块,用于快速少量自适应。我们称之为:学习分割尾部(LST)。简而言之,LST可以在算法1中总结。在训练了第一个阶段之后,我们开始在T个阶段进行增量学习(例如,T等于图1中的3)。给定相对平衡的子集Dt,第t阶段使用数据重放(BalancedReplayin Sec.第3.3节),可以同时学习新类和微调旧类(第3.2节中的UpdateModel)。为了逐步将知识从“容易的”多镜头头部转移我们在大规模长尾基准LVIS上验证了所提出的LST,LVIS包含1,230个入门级实例类别。实验结果表明,我们的LST提高了实例分割的结果比基线7.0 - 8.0%的AP在尾部类,同时获得2.2%的整体改善为整个类。结果显示,为我们解决长尾数据中严重的类不平衡提供了一个有希望的方向:类增量式少量学习。我们的贡献可归纳如下:• 我们是国内最早研究大词汇量实例切分的课题之一,具有很高的实用性算法1学习分割尾部(T+1阶段)输入:{Gi}i=0,1,.数据集预处理输出:θT最终相位模型参数一曰: θ0←arg minLinst(G0;θ0)<$Base classestrainingθ02:对于t=1→Tdo3:Dt ←B ALANCED R EQUIPMENT({Gi}i=0,1,.t);4:θt←UPDATEMODEL(Dt,θt−1)第五章: 端6:函数UPDATEMODEL(Dt,θt−1)7:θt<$θt−1<$模型初始化8:重复9:当使用元模块时,10:Gsup←Gt示例支持集11:θt←MWG(Gsup,θt)12:当生成较少拍摄重量时结束13:θt←argmin[Linst(Dt;θt)+Lkd(Gt,θt−1;θt)]θt14:直到收敛旧的新类微调十五: end function通过关注实例分割领域中严重的类不平衡和少镜头学习来实现• 我们为LVIS开发了一种新的学习范式:类增量少次学习。• 针对上述范例提出的学习分割尾部(LST)优于基线方法,特别是在尾部类上,其中模型可以无需培训即可立即适应看不见的课程。2. 相关工作实例分段。我们的实例分割骨干基于流行的基于区域的框架[22,13,5,25],特别是Mask R-CNN [13]及其半监督扩展MaskX R-CNN [17],其可以从仅仅框注释中转移掩码预测器。然而,它们不能扩展到大规模的长尾数据集,如LVIS [10],这是我们工作的重点。分类不平衡。重新抽样和重新加权是解决阶级不平衡的两个主要努力。 前者旨在重新平衡类间的训练样本[16,3,11,6];而后者则专注于分配不同的权重来调整损失函数[18,40,47,7]。一些关于广义少次学习的工作[46,21]也处理了一个非常不平衡的数据集,将少次学习的测试标签空间扩展到基础和新的稀有类。我们提出了一种新的重采样策略。与以往的图像级重采样不同,本文在实例级上解决了数据集不平衡的问题。14047学而不忘,学而不忘。 现有的研究主要集中在如何学习新知识而又少遗忘,以及如何从学习过程中进行归纳,学会学习。为了应对不断变化的数据,类增量学习方法[36,16,38,2]将在旧类上训练的原始模型适应新类,其中应用知识蒸馏[15,23]和旧数据重放[33,26]以最小化遗忘。对于少量学习,基于元学习的作品通过特征表示[29,32,20]、分类器权重[46,8]和来自数据丰富的基础类的模型参数回归[42,43]来传递学习到学习知识,以获得数据贫乏的新类的良好模型初始化。我们提出了一个类增量的几次学习范式,可以看作是这两个领域的一个非平凡的组合。3. 学习分割尾部LVIS是一个大型的Vocabulary实例分段数据集,包含1,230个实例类[10]。LVIS中每个类的图像数量具有自然的长尾分布,700+类包含不到100个训练样本。为了解决具有挑战性的数据集在所提出的使用“分而治之”策略的LST中 在第3.3节和第3.4节中,我们详细介绍了如何使用BalancedReplay和MWG进行知识审查和少量调整。3.1. 数据集预处理我们的划分准则是减轻数据集的相位内不平衡,其中每个划分是相对平衡的。我们首先按照实例级样本的数量降序对类进行排序,分类类集C.然后,我们将排序的类别划分为相互排斥的组{Ci}。相应地,我们有一个子数据集Gi,其中包含每个Ci的图像和注释。具体地,在将排序后的前b个类分组为自举组C 0,并将剩余的类分成T个 均匀间隔的 区间{Ci}i=1,2,. T,我们得到排 序 的具有群C=C0 <$C1 <$· ·<$CT的类集。借─签名数据到相应的组,我们将{Gi}i=0,1,. T,如A1-出租m 1的第1行所示,其中每个Gi由包含C i的任何实例的所有注释图像组成。在此设置之后,数据被逐步馈送到网络,以便我们的模型以类增量学习方式进行训练。3.2. 类增量实例分割类增量学习旨在学习一个统一的模型,可以识别前一阶段和当前阶段的类[33]。在我们的场景中,我们的目标是训练我们的网络,分类Logits图2.概述我们的框架,学习实例分段模型增量。它基于两阶段实例分割架构,在增量阶段使用旧类和新类的采样数据训练整体不平衡数据集。在增量阶段,主干的权重被冻结,并且使用当前和先前网络的分类逻辑之间的地面真值框符号来计算蒸馏,以避免遗忘。{Gi}i=0,1,... T,得到从θ0到θT的模型,最后将θT作为我们的结果模型,可以检测所有实例在LVIS上课。在这里,我们采用了流行的定义,从增量学习和少镜头的作品中继承学习[8,36]:C 0中的类被称为基类;对于阶段t =1,2,···,T,{Ci}i=0,1,.中的类。t−1的 类称为旧类,当前Ct中的类称为新类。对于每个阶段的培训和评估,我们将不处理未来类{Ci}i=t+1,.,T.随着阶段t的过去,新类的Gt中的数据变为越来越少,老班级的数据变得越来越不平衡。为了解决相间不平衡问题,我们提出了一种新的旧数据采样方案,这将在第3.3节中讨论。我们的整体架构如图2所示。 我们基于MaskX R-CNN [17]构建了类增量学习框架,这是Mask R-CNN[13]的修改版本。MaskX R-CNN是一种实例分割模型,可以通过从其边界框参数获得类别的掩码参数来在部分监督域中使用我们采用了这种权重传递模块,以便在增量阶段之间共享与类别无关的传递函数权重,这可以1)减轻1,230类和2)避免跨类的28×28掩码logit的不稳定知识提取(即,28×28倍以上的类logits蒸馏方程。(2)译注。此外,我们将检测分支中的最后一个分类器层替换为缩放余弦相似性算子,因为它已被证明是有效的,在消除偏见造成的…Inst-segmentation流水线骨干掩模头重量转移步进电机RPN盒RoIAlign功能Bbox头骨干掩模头…分类LogitsGT盒子关于���+���重量转移步骤1+ 1RPN&框Bbox注册重量蒸馏BboxRoIAlign功能头平衡回放分类权重……分类权重BboxReg权重日本+1………14048#训练图像:10个人吉他低效不不[33,8,16]的显著差异。例如,给定特征向量x,具有权重w的余弦相似性分类器的输出logits向量y为:y=wT x(1)其中w=w/w和x=x/x是L2归一化向量。然后,掩码分支中的类特定掩码权重使用类-MaskX R-CNN中的不可知权重预测函数 [17]。整个类增量学习流水线如算法1所示,它由两个阶段组成:第一阶段。基础训练班。该训练阶段(t=0)为基本类提供模型θ0,其中联合训练骨干和RoI头部。培训班--前B类的量化权重向量表示为WB=[w,w,. w]。我们假设,如果基础数据(a) 图像级重采样(b) 每图像一实例重采样12b类是足够丰富和相对平衡,θ0的训练可以有效地作为整个系统的引导。我 们 计 算 实 例 分 割 损 失 Linst=LRPN+Lcls+Lbox+Lmask。RPN损失LRP N、分类损失Lcls、边界框损失L框和掩码损失L掩码与Fast R-CNN [9]和Mask R-CNN [13]中定义的相同。第二阶段。类增量学习。 在每个阶段t(从1到T)中,分类器的数量被扩展,这导致对阶段1中的训练过程的以下调整网络扩展。在从最后一个阶段的模型θ t-1初始化之后边界框、分类和回归层以及用于新类的掩码预测层 回想一下我们对主干的修改,掩码层的权值可以从盒层的权值中转移,因此网络的扩展仅是有限的。(c) 我们图3.不同重采样策略的运行示例。给定来自不同阶段的“人”和“吉他”的图像,我们使用不同的重采样策略在训练ROI头部中显示每个图像的可观察实例。如(c)所示,与(a)和(b)相比,通过省略除了我们采样的图像之外的图像中的“人”的注释相位t−1和电流θt。 请注意,out-安装在盒头上。冻结与知识升华。 就像课堂上讨论的-把ytin phase测试还结合了C测试中新类别,′增量学习工作[33,16],这两种策略被广泛用于解决灾难性遗忘,当使模型适应新数据时,先前数据的显著性能下降。数据排练[33]是另一种通过回顾旧数据来防止遗忘的策略,在第3.3节中进行了讨论。在我们的场景中,1)通过冻结主干中的权重,对歧视性表示施加了强约束,2)通过知识蒸馏,先前学习的歧视性表示在新的学习步骤中不会严重移位。我们的减值亏损定义为:我们使用y t来指示仅对应于先前类{Ci}i=0,1,. t−1。 L2距离是衡量logit之间差异我们选择L2-由于已经标准化的logits(即,logits位于相同的范围[-1,1])使用余弦。Eq的目的。(2)是让新模型模仿旧模型生成相似的输出logits),从而可以保留从旧网络中学习的知识值得注意的是,蒸馏需要相同的输入样本通过新旧网络Lkd =<$yt−1−y′<$(2)分开与分类任务不同,在实例分割中,提案是动态预测的。其中yt−1和y'是{Ci}i=0,1,.中类的输出逻辑向量。t−1使用两个旧模型θt−1,为此,我们在每个步骤中使用新类的地面真值边界框作为样本进行蒸馏。在-#训练图像:6个人吉他还是不平衡#训练图像:4吉 他 平 衡高效实例数实例数实例数14049init切片���ℬconcat特征提取器权重发生器……������−1for…扩展ROI功能ROI头功能提取器不不阶段III:阶段III:吹风机鹦鹉…支持数据共享参数…狗吹风机查询数据图4.我们的框架与权重生成器相结合的架构。在每一步开始时,旧类的分类器权重从前一个网络中复制。基于新类样本和基本分类器权重的特征,新类的权重由我们的权重生成器预测并连接。在获得整个分类器后,我们的权重生成器与网络一起使用新旧类别的输入图像进行训练。对于每个增量阶段t,知识蒸馏损失被加到最终损失上,即L=Linst+ Lkd。3.3. 实例级数据平衡重放如图1所示,在每个增量阶段中,实例数量的变化会缩小。然而,相间不平衡(即,相位之间的样本数量的差距)存在,这导致了一个两难的问题:如果我们把以前的数据都重新放一遍,肯定会打破平衡,把不平衡重新引入到我们的网络中,如果我们放弃重放,灾难性遗忘就会发生[33]。此外,以前的重采样策略[10,35]不能优雅地应用于实例级视觉任务。对于图像级重采样,规则化每个类别的图像数量,固有的类同现可能会阻碍其有效性。例如,在图3(a)中,由于图3(b)中的一个备选的一个实例一个图像策略可以确保绝对平衡,但是,多次前馈相同图像的额外计算成本是巨大的在此基础上,提出了实例级数据平衡算法重播策略。对于阶段t,其工作如下:如图3(c)所示,通过使用上述策略重放旧数据的平衡集Rt,我们在每个阶段t动态收集相对平衡的数据集Dt= Rt <$Gt。3.4. Meta权重生成器到目前为止,所提出的类增量流水线能够解决阶段内-阶段间不平衡,同时保留来自先前阶段的类的性能。然而,当我们接近尾类时,少量学习的挑战变得更加严峻。因此,我们采用如图4所示的Meta权重生成器(MWG)模块[46],其利用从先前阶段学习和继承的基础知识动机是:给定为基本类学习的鲁棒特征主干和分类器(即,第3.2节中的阶段1),可以根据新样本特征本身及其与基本分类器的相似性,学习直接举一个直观的例子,我们可以通过使用“drone”样本特征以及样本看起来如何像基类来定制50%形式上,在第t个增量阶段,我们分解将分类器权重矩阵Wt分成两部分:WO,WN1) 计算n<$C:集合Ct所有类别上的实例的平均数量2) calculate{n<$k}:计算实例的平均数量所有图像包含 注释 从 正确的-t t分别为旧类和新类。根据Gidaris Komodakis特别是,我们检索基本分类器权重从WO开始写WB,然后学习如何写WN。 采取t t t响应老猫函数k∈{Ci}i=0,1,. t−1;3) 构造重放集Rt:对于每个类别k,从以下图像中随机采样n<$C/n<$k个图像:{Gi}i=0,. t−1包含cate goryk,其中只有那些考虑属于类别k的在训练中有效。2我们用“person”来代替“baby”来表示一组同义词标签:“儿童”、“男孩”、“女孩”、“男人”、“女人”和“人类”,以提高可读性。以包含新类别C的ROI的图像为例,对于每个RoI特征向量x,1)特征向量x被馈送到注意力核函数以获得系数m,如下:m=Att(K ,Vx),其中m是用于注意b个基本分类器权重WB的权重系数,V是将x变换为查询向量的可学习矩阵,并且K是可学习键的集合(每个基本类别一个); 2)分类权重w c是第一个为每个RoI要素x独立生成,然后在类别的所有RoI上取平均值(延期后)…14050不不不C作为类别C的最终预测权重向量。对于每个RoI特征x,相应的分类器权重计算为:w=a<$x+b<$(WB m),(3)0.80.60.4其中k表示逐元素乘法,a和b是可学习的权重向量。对于第t个相位的初始化,从前一个相位t-1复制WO。对于情节训练[41],每个情节由支持集和查询集组成0.20.0类别从Dt采样。支持集用于应用MWG以生成WN(等式2)。(3)),查询集用于收集使用完整模型θt的预测损失:级联分类器[WO,WN]以及其他网络图5.在尾类的子集上进行性能比较-在我们的LST和联合训练基线之间(MaskX R-CNN)。我们观察到,由于极度不平衡,许多少数镜头类别的基线AP为零。t t参数,然后更新θt。这种联合训练确保分类器权重和元学习器在第t阶段同步。在情节训练之后,我们通过对预训练进行平均来设置新类别c的权重Dt中类c的所有实例的指定权重。然后,元模块可以完全分离,我们是准备交付θt模型4. 实验我们在LVIS [10]上进行了实验,使用标准度量进行实例分割。AP是在所有类别的IoU阈值从0.5到0.95之间计算的。AP50(或AP75)意味着使用IoU阈值0.5(或0.75)来识别预测是否为阳性。为了更好地-从头到尾播放结果,AP (0 ,1 ),AP (0 ,5 ),AP (0,10),AP[10,100),AP[100,1000),AP[1000,-)进行评估。对于只包含1,5,<10、10× 100、100× 1,000和≥1,000个训练对象实例。用于物体检测的AP报告为APbb。4.1. 实现细节我们实现了我们的架构和其他基线(例如,MaskXR-CNN [17])在Mask R-CNN [13]代码库maskrcnn基准测试3上。对于第3.2节,我们实现如下:1)掩码权重由类不可知的MLP掩码分支连同从Hu等人之后的箱头的分类器转移的权重一起生成。[17]; 2)将余弦归一化应用于特征向量和分类器权重两者,以获得分类对数。请注意,最后一层中的ReLU非线性被删除,以允许特征向量取正值和负值。我们将余弦相似度的比例因子初始化为10. 所有模型都使用在COCO [24]上预训练的已发布模型进行初始化,并使用具有1 e-4权重衰减和0.9动量的SGD进行训练。每个小批次都有3https://github.com/facebookresearch/掩模基准8个训练图像,图像的大小调整到其短边为800像素。除水平翻转外,未使用其他增强。使用5kval图像对模型进行评价。根据Guptaet al. [10],我们将每个图像的检测数量增加到最多300个(与COCO的前100名),并将最小得分阈值从默认值0.05降低到0.0。对于第3节,在第1阶段,我们选择b= 270,其中每个顶级b类都有400+个实例。每幅图像选择512个RoI,并且正负比为1:3。为了训练顶级b类,学习率被设置为0.01经过6个周期和8个周期(共10个周期)后,衰减到0.001和0.0001。在第二阶段,我们把剩下的班级分成6组。对于每一个增量阶段,我们每个图像只采样100个提案,因为当采用我们的平衡重放策略时,每个图像的有效注释数量会减少回想一下第3.2节中的冻结操作,我们在每个增量学习阶段冻结了主干中ResNet[14]的前3层。学习率从0.002开始,在6个时期(总共10个时期)后除以10。关于b和相数的选择的更多实验在第4.3节中给出。4.2. LVIS的结果与分析结果 如表1所示,我们的方法在最后阶段评估,即,整个数据集的性能大大优于尾部类(AP(0,10)和AP[10,100))中的用于物体检测和输入的总体AP站立分割得到改善。特别是,如图5所示,我们从尾类中随机抽取了60个类,其训练集中的实例数小于100,并报告了使用和不使用我们的LST(类增量)的结果我们观察到,我们的方法在大多数尾部类别中获得了显着的改善。我们还将我们的方法与其他为解决不平衡数据而提出的重新采样方法进行了比较,其中重复因子采样[10]基本上对包含尾类注释的图像进行了上采样,而类感知采样[35]是一种替代的过采样方法。结果我们的基线AP(%)14051模型AP(0,10)AP[10,100]AP[100,1000]AP[1000,−)AP基线3.520.125.131.523.0我们14.430.025.026.926.3模型AP(0,1]AP(0,5)AP(0,10)AP[10,100]AP[100,1000]AP[1000,−)APAP50AP75APbb基线[13]0.00.00.012.820.928.317.928.918.817.9修饰的骨架0.00.00.013.919.927.617.828.218.817.7[35]第三十五话0.00.00.020.020.224.519.531.620.519.3重复因子抽样[10]4.00.02.919.921.427.820.833.322.020.6LST不带MWG(我们的)12.09.311.727.121.322.322.836.424.122.3LST w MWG(我们的)13.610.711.226.821.723.023.036.724.822.6表1.我们的LST的结果,并与其他方法的比较LVIS价值集。所有实验均基于ResNet-50- FPN Mask R-CNN进行表2.我们在ResNeXt-101- 32 x8 d-FPN Mask R-CNN上实现的LST和基线结果。表3.不同基类b大小和增量相数的烧蚀研究。图6. t-SNE [27]在最后一个阶段中对少数镜头类别的系数进行嵌入。如上所述,语义上和视觉上相似的类是接近的(即,结果表明,我们的方法优于所有其他图像级重采样方法的尾部类,带来了整体AP以及改善。在图6中,我们可视化了最后阶段中样本的权重生成器的预测系数向量m视觉上或语义上相似的类的系数向量往往是接近的,这表明我们的权重生成器由于资源有限,上述模型均在ResNet-50-FPN上实现。我们在表2中进一步报告了将我们的方法应用于ResNeXt-101- 32 x8 d-FPN[45]的结果(b= 270,3个相位),这也显示了显著的改善。随着更强大的计算资源可用,我们希望遵循Tan等人的设置。我们的工作[19],以进一步提高我们的业绩。我们相信,我们的发现与视觉中枢和数据增强技巧无关分析。Oksuz等人[30]指出,由于数据集本身,不同前景类别之间的不平衡破坏了流行识别的性能模型表1中我们的基线模型的结果证实了这一观点,显示了认识到在罕见类别上的表现比常见类别差得多(0.0%vs.28.3%。通过重新平衡数据集,以前的重新采样可以像Gupta等人一样工作。[10]或Shenet al. [35]在某种程度上提高了尾类的性能。然而,我们表明,他们是不太有效的比我们的LST。原因是他们在尾部过度拟合和头部不足拟合之间的权衡此外,回想一下图3,我们的方法更适合基于实例的任务,因为我们基本上解决了实例之间的总体不平衡。更重要的是,对于Gupta等人来说,的工作[10],用于指导整个数据集的重新采样的阈值对数据分布敏感,因此需要仔细调整。因此,当新的观测值被添加到当前数据集时,该方法不灵活相反,第4.3节中的实验表明,我们的方法对每个增量阶段内的分布具有鲁棒性,揭示了我们的工作可以应用于具有稀有数据的开放类的潜力。4.3. 消融研究b和相位大小的选择。不同b和相数的影响如表3所示。我们实证表明,一方面,最终性能对b的选择敏感,因为在更不平衡的基础数据集上训练(即,b= 590)破坏了θ0的可靠性,并进一步影响后续相位。另一方面,结果对于当相位大小位于中等范围内时,每个增量相位作为平衡重放总是可以提供相对平衡的数据集。知识升华。我们将剩下的960个班级分为6个阶段,通过比较在每个阶段的绩效,B相尺寸#阶段AP110160722.4270160622.8270320322.9270480222.9270960121.8590160421.2590320221.414052W无蒸馏老班新班老+新课程掩码映射35302825232015181013580w MWG(新)w/o MWG(新)1期2期3期阶段4第五阶段第六阶段3第一阶段第二阶段第三阶段第四阶段第五阶段第六阶段图7.使用知识蒸馏(阴影填充条)和不使用知识蒸馏(实心填充条)的网络之间的比较。报告了旧类(黄色条)、新类(蓝色条)和旧的新类(绿色条)的结果。图9.使用和不使用元权重生成器训练的模型的性能比较。对于每个增量阶段,实例分割性能都是在整个新的旧类上进行评估的,我们只报告新类的结果,以突出少数学习性能。29272523211917152704305907509101070 1230班数(a) LVIS-bboxAP(6相)29272523211917152704305907509101070 1230班数(b) LVIS-maskAP(6个阶段)AP(0,1],AP(0,5))。更具体地说,我们在每个阶段对所有类的模型进行了评估,并报告了性能新的类(图9)。很容易看出,在这两者中,基于元模块的解决方案表现出更好的少镜头识别行为,特别是对于最后阶段的5镜头类(5.3%vs.8.0%),不影响所有类别的识别性能但相对图8.使用和不使用平衡重放训练的模型的性能比较。对于每个增量阶段,报告在新的旧类上评估的检测和实例分割性能分别是新类、旧类、新老类。如图7所示,在没有提取两个相邻阶段的分类对数的情况下训练的模型始终比使用新旧类的提取的模型表现更差。在最初的几个阶段中,没有蒸馏的新类的性能更高,因为当新类数据丰富时但是,当每个类别的实例数量变得越来越少时,提炼对于新类和旧类都变得在有和没有知识蒸馏的情况下,整个数据集的最终实例分割AP为22.8%vs.21.6%,证明了蒸馏的有效性。平 衡 回 放 图 8 显 示 了 我 们 的 平 衡 重 放 ( BalancedReplay,BR)与基线的效果对比,基线在每个阶段使用来自旧类和新类的所有数据值得注意的是,虽然更多的数据用于训练,严重的不平衡导致性能逐渐变差比我们的方法。此外,我们的方法需要更少的存储空间消耗和训练迭代收敛。Meta权重生成器。 我们研究了我们的系统的性能,并没有使用Meta权重生成器。如表1所示,这两种方法都在少数镜头识别上提供了非常显著的提升,而基于元模块的方法在极端少数镜头类上做得更好(即,传统的训练,Meta的情景训练,模块内存效率低。在我们的实现中,160是配备MWG的网络的最大相位大小,因此我们只报告使用6个增量相位的结果。我们希望在未来的工作中探索元学习和微调的更好组合5. 结论我们通过制定一个新的范式来解决大规模长尾实例分割的问题:class-incremental few-shot learning,任何大型数据集都可以被分成组,并从头到尾逐步学习。随着时间的推移,这种模式引入了两个新的挑战:1)为了对抗灾难性遗忘,旧类越来越不平衡,2)新类越来 越 少 镜 头 。 为 此 , 我 们 开 发 了 学 习 分 割 尾 部(LST)方法,配备了一种新的实例级平衡重放技术和元权重生成器,用于少数镜头类适应。在LVIS数据集[10]上的实验结果表明,LST可以显著提高尾部类的性能,并对整个1,230个类实现整体提升。 LST报价一种新颖实用的解决方案,用于从大规模长尾数据中学习:我们只能利用一个缺点--头课遗忘,来平衡两个挑战--大量词汇和少量学习。鸣谢。我们感谢所有审查者提出的建设性意见。本研究得到阿里巴巴-南大联合研究所的资助,浙江省实验室 重 大 科 研 项 目 ( 第 1001 号 ) 的 部 分 支 持2019DB0ZX01)。w BR不含BRw BR不含BR掩模APbbox mAP掩码映射14053引用[1] Bryan C Russell、Antonio Torralba、Kevin P Murphy和William T Freeman。Labelme:一个数据库和基于网络的图像注释工具。InIJCV,2008. 1[2] 弗朗西斯科·M曼努埃尔?卡斯特罗Marin-Jimenez,Nicolas Guil,Cordelia Schmid,and Karteek Alahari.端到端增量学习。在ECCV,2018。3[3] Nitesh V Chawla,Kevin W Bowyer,Lawrence O Hall,and W Philip Kegelmeyer. SMOTE:合成少数过采样技术. 人工智能研究杂志,2002年。一、二[4] Kai Chen,Jiangmiao Pang,Jiaqi Wang,Yu Xiong,Xiaoxiao Li,Shuyang Sun,Wansen Feng,Ziwei Liu,Jianping Shi,Wanli Ouyang ,Chen Change Loy ,andDahua Lin.实例分割的混合任务级联。在CVPR,2019年。1[5] Liang-Chieh Chen,Alexander Hermans,George Papan-dreou,Florian Schroff,Peng Wang,and Hartwig Adam.MaskLab:通过语义和方向特征细化对象检测的实例分割在CVPR,2018年。2[6] Yin Cui,Menglin Jia,Tsung-Yi Lin,Yang Song,andSerge Belongie. 基 于 有 效 样 本 数 的 类 平 衡 损 失 。 在CVPR,2019年。2[7] 齐东,龚少刚,朱夏天。用于不平衡深度学习的类校正硬挖掘。InICCV,2017. 2[8] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习没有忘记。在CVPR,2018年。二三四五[9] 罗斯·格希克。快速R-CNN。在ICCV,2015年。1、4[10] 阿格里姆·古普塔,皮奥特·多勒,罗斯·格希克。LVIS:一个用于大词汇实例分割的数据集。在CVPR,2019年。一二三五六七八[11] 何海波、杨白、E.A. Garcia和Shutao Li。ADASYN:用于不平衡学习的自适应合成采样方法IEEEInternationalJoint Conference on Neural Networks,2008。一、二[12] 何海波和爱德华多·加西亚。从不平衡的数据中学习IEEETransactions on Knowledge Data Engineer,2008。1[13] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面罩R-CNN。InICCV,2017. 一二三四六七[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。6[15] Geoffrey Hinton Oriol Vinyals和Jeffrey Dean在神经网络中提取知识。NeurIPS,2014。3[16] Saihui Hou , Xinyu Pan , Chen Change Loy , ZileiWang,and Dahua Lin.通过重新平衡增量学习统一分类器。在CVPR,2019年。二、三、四[17] RonghangHu,PiotrDolla'r,KaimingHe,TrevorDarrell,andRoss Girshick.学会分割每一件事。在CVPR,2018年。二三四六[18] Chen Huang,Yining Li,Chen Change Loy,and XiaoouTang.为不平衡分类学习深度表示。在CVPR,2016年。2[19] 卜宇、李泉泉、李万里、欧阳长青、尹俊杰、谭静茹、王 昌 宝 . 长 尾 目 标 识 别 的 均 衡 损 失 。 ArXiv :2003.05176,2020。7[20] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重新加权的少镜头目标检测。在ICCV,2019年。二、三[21] Aoxue Li,Tiange Luo,Tao Xiang,Weiran Huang,andLiwei Wang.具有全局类表示的少量学习。在ICCV,2019年。2[22] 李毅、齐昊之、戴季风、季向阳、魏一晨。完全卷积的实例感知语义分割。在CVPR,2017年。2[23] 李志忠和Derek Hoiem。学而不忘.在ECCV,2016年。三、四[24] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。Microsoft COCO:上下文中的常见对象。2014年,在ECCV。6[25] 刘舒,陆琪,秦海防,石建平,贾佳雅。用于实例分段的路径聚合网络。在CVPR,2018年。2[26] Yao Liu,Yuting Su,An-An Liu,Bernt Schiele,andQianru Sun.记忆术训练:多类增量学习而不会忘记。在CVPR,2020年6月。3[27] Laurens van der Maaten和Geoffrey Hinton使用t-SNE可视化数据。载于JMLR,2008年。7[28] 作者:Michael McCloskey,Neal J.科恩连接主义网络中的灾难性干扰:顺序学习问题。学习和动机心理学-研究和理论进展,24:109-165,1989。一、二[29] Richard S. Zemel Mengye Ren,Renjie Liao.使用注意力吸引子网络的增量式少量学习。NeurIPS,2019。二、三[30] 凯末尔·奥克苏兹,巴里斯·坎·卡姆,希南·卡尔坎,埃姆雷·阿克巴斯.物体检测中的不平衡问题:审查. arXiv预印本arxiv:1909.00169,2019。7[31] 大卫·M·W·鲍尔斯齐夫定律的应用与解释。计算机语言学协会,1998年,第151-160页。1[32] Hang Qi,Mat
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功