弹性响应蒸馏：一种用于增量目标检测的灾难性遗忘解决方法

42 浏览量更新于2023-10-25 收藏 695KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9427通过弹性响应蒸馏克服冯涛1，王莽1*，袁航杰21阿里巴巴集团2浙江大学冯涛，gmail.com王芒，袁华，王伟，alibaba-inc.com王伟，zju.edu.cn摘要传统的物体检测器不适合于不断增加的学习。然而，直接在仅具有新数据的良好训练的检测模型上进行微调将导致灾难性的遗忘。知识蒸馏是一种灵活的减轻灾难性遗忘的方法。在增量式目标检测（IOD）中，以往的工作主要集中在提取特征和响应的组合。然而，他们对包含373635343332313029更少的回应所有响应回应。在本文中，我们提出了一种基于响应的增量蒸馏方法，称为弹性响应蒸馏（ERD），它侧重于弹性学习响应的分类头和回归头。首先，我们的方法转移类别知识，同时装备学生检测器的能力，以保留本地化信息在增量学习。此外，我们进一步评估所有位置的质量，并通过弹性响应选择（ERS）策略提供有价值的响应。最后，阐明了在增量精馏过程中，来自不同响应的知识应被赋予不同的重要性。在MS COCO上进行的大量实验表明，我们的方法达到了最先进的结果，大大缩小了与完全训练的性能差距代码可在https://github.com/Hi-FT/ERD上获得。1. 介绍在自然界中，生物的视觉系统能够不断地获取、整合和优化知识.学习模式对他们来说本质上是渐进的。相比之下，目前，对象检测模型的经典训练范例[19，33]不具有这种能力。监督对象检测范例依赖于访问预定义的标记数据。这种学习范式隐含地假设数据分布是固定的或平稳的[9，37]，而来自现实世界的数据由连续的*通讯作者。图1.各种反应对IOD的影响。和动态数据流，其分布是非平稳的。当模型不断从非平稳分布中获取知识时，新知识会干扰旧知识，引发灾难性遗忘[11，26]。根据是否提供或必须推断任务身份[34]，研究人员将增量学习（IL）分为三种类型：任务/领域/类IL。在本文中，我们集中在最棘手的情况下，对象检测：类增量对象检测。解决IOD的灵活方法是知识蒸馏[14]。[28]强调塔层可以显著减少他们在无锚检测器上实现了增量学习，并选择性地对非回归输出进行了蒸馏。同时，在没有引入增量学习的目标检测的知识蒸馏中，以前的工作从不同成分的组合蒸馏中展示知识。例如，[5]和[32]提取了检测器的所有然而，这些方法的本质是使用基于特征的知识蒸馏[6]设计的，基于响应的方法[12]尚未在IOD [25]此外，基于响应的方法的优点是它提供了教师检测器的推理信息[14，27因此，针对不同反应的精心设计是必不可少的[23]。本文重点研究了IOD中一个实际而具有挑战性的问题：如何从分类预测和边界框中学习响应。对象中的响应我们36.336.135.635.534.934.834.133.732.331.530AP9428检测包含logit以及绑定框的偏移量[12]。首先，由于每个新图像上的地面真实值的数量是不确定的，因此最重要的任务之一是验证所有样本的响应，确定哪个响应是正的或负的，以及每个对象应该回归到哪个响应。此外，如图1所示，我们发现并非所有响应都对防止灾难性遗忘很重要，因此适当数量的响应节点是理想的。[16]还提出，突触巩固通过减少对先前学习任务至关重要的突触可塑性来实现连续学习。总之，我们通过约束重要响应以保持接近其旧值来引导学生检测器跟随教师对旧对象的指示。针对上述问题，本文对基于响应的知识提取方法进行了反思，发现在适当的位置进行知识提取是促进IOD的关键受此启发，我们提出了一个ERD方案，分别从分类头和回归头弹性学习响应。与以前的工作不同，我们在回归响应中引入了增量定位蒸馏[38]，以使学生检测器能够在增量学习期间学习位置模糊性[20]。此外，本文还提出了基于统计特征的响应点选择策略（ERS），该策略可以根据不同响应点的统计特征自动选择蒸馏节点，从而对所有位置的质量进行评估，并提供有价值的响应点。在本文中，我们将解释我们如何实现的约束，最后，我们如何确定哪些反应是重要的。我们极大地缓解了灾难性的遗忘问题，并通过全面培训显着缩小了差距在MS COCO数据集上进行的大量实验支持了我们的分析和结论。我们的贡献可以总结如下，(i) 据我们所知，本文是第一个工作，探讨基于响应的蒸馏方法在IOD和解剖的本质区别基于特征和基于响应的IOD解决方案。（ii）我们提出了基于统计分析的ERD，它使用所提出的ERS策略分别提取选择性分类和回归响应。（iii）在MS COCO上的大量实验表明，所提出的方法实现了最先进的性能，并且可以容易地扩展到不同的检测器。2. 相关工作增量学习。灾难性遗忘是增量学习的核心挑战。基于参数约束的增量学习是解决这类问题的一种方法，它通过引入一个与参数相关的正则化项来修正梯度，从而保护了原有的知识。EWC [16]和MAS [1]是这种方法的两个典型代表。另一种解决方案是基于知识提炼的增量学习。这种方法主要是通过知识提炼将旧任务中的知识转移到新任务中，从而LwF [21]是第一种将知识蒸馏概念引入增量学习的方法，目的是使新模型对新任务的预测与旧模型相似，从而以知识转移的形式保护旧知识。然而，当新旧任务之间的相关性较低时，它会导致知识混淆iCaRL [30]算法使用知识蒸馏来避免网络中知识的过度退化，而BiC [36]在FC层之后添加了偏差校正层，以抵消使用蒸馏损失时新数据的类别偏差。增量对象检测。与增量分类相比，IOD的研究较少同时，检测任务的高复杂度也增加了增量式目标检测的难度。[31]提出将LwF应用于快速RCNN检测器[10]，这是关于增量对象检测的第一项工作。此后，一些研究人员将这一领域向前推进。[28]提出了无锚探测器上IOD的SID方法，并在FCOS [33]和CenterNet [39]上进行了实验[18]研究了基于Faster RCNN检测器上的类增量学习的对象检测，重点是少数场景，这也是ONCE算法的重点[29]。[17]设计了一个在边缘设备上使用RetinaNet检测器[24]的增量对象检测系统最新的工作，[15]在定义开放世界对象检测（OWOD）的问题时引入了增量学习然而，现有的IOD蒸馏框架没有足够的重视头部的重要作用。在本研究中，我们发现头部在IOD领域有着重要的意义。用于目标检测的知识提取。知识蒸馏[2，4]是实现模型间知识转移的有效途径知识蒸馏在以往的研究中广泛应用于图像分类任务，现在经常用于目标检测任务[8]。[5]对Faster RCNN的所有组件（包括主干、RPN中的建议和头部）实施蒸馏。为了用学生模型模仿教师模型的高级特征响应，[35]提出了一种基于细粒度特征模仿的蒸馏方法。[3]提出了一种适用于目标检测的无数据提取技术，通过逆映射合成类别条件化的目标，但该方法会触发梦意象。[13]鉴于前景和背景在目标检测中的独特作用，提出了一种前景和背景解耦的目标检测[38]提出了一种局部化蒸馏方法，将知识蒸馏引入到检测器的回归分支中，使学生网络能够像教师网络一样解决局部化歧义。9429分类响应ERS分类最大置信度头Top-1值X5ERS回归回归响应L2蒸馏损失新任务地面实况X5LD蒸馏损失新任务地面实况LPPPi=1LTS我ERD cls不S不SM头老师无水蒸馏学生3. 方法3.1. 动机图2.用于增量对象检测的弹性响应蒸馏的总体结构。分类分支第三个损失项ERDbbox是回归分支的增量局部化蒸馏损失。LERDcls和LERDbbox都用于输出-IOD的目的是将旧的知识传递给学生检测器，这些知识可以是脊柱或颈部中间层的特征，也可以是头部的软目标。与基于特征的方法不同，基于响应的方法可以提供教师检测器的推理信息[14，27]。因此，我们通过从不同头部的响应中提取增量知识来增量地学习强大且高效的学生对象检测器3.2. 整体结构所提出的方法的总体框架在图2中示出。首先，ERD用于从教师检测器的分类头和回归头学习弹性响应。其次，采用增量定位蒸馏损失法来提高学生检测器的定位信息提取能力。值得注意的是，ERS策略被提出来从教师检测器获得更有意义的增量响应，即从教师检测器提供的响应中选择性地计算蒸馏损失。学生检测器的总体学习目标因此被定义为，把旧的类。我们默认使用λ1= λ2= 1。在下面的小节中，我们主要介绍ERD和ERS用于GFLV 1 [20]，而我们将我们的方法推广到表7中的FCOS，这说明了我们方法的有效性。3.3. 分类头来自分类头的软预测包含由教师检测器发现的各种类别的知识通过软预测的学习，学生模型可以继承隐藏的知识，对于分类任务来说是直观的[14]。设T为教师模型，利用SoftMax将CT转换为分布，得到输出概率分布不是-罚款，PT= SoftMax（CT/t）（2）类似地，我们将学生模型S的P S定义为PS= SoftMax（CS/t），其中t是软化T和S的概率分布的温度因子。以往的工作通常是直接利用分类头中的所有预测响应，对每个位置进行同样地，例如Lcls=N LKL（PT，PS）. 如有L总=L模型+λ1LERD cls（CT，CS）+λ2LERD bbox（BT，BS）（一）不适当的平衡，背后产生的反应-地面类别可能会压倒前景类别产生的响应，从而干扰保留，其中λi是平衡dif的权重的参数两个损失项，下标分别代表教师和学生。损失项模型是检测器特定的分类和定位损失，以训练学生检测器检测新的对象。第二损失termL ERD cls 是L2蒸馏损失的增量，古老的知识。这里，我们选择性地从响应计算蒸馏损失，因此分级水头处的增量蒸馏损失如下：L（C，C）= 0. C −Ci2（3）i=19430CJ=L∞∞LDBJB其中CTi是来自教师检测器的使用新数据的m个所选类别响应之一。Si是学生检测器的相应类别响应。通过学生检测器通过提取所选择的响应，逐渐继承教师检测器的旧知识3.4. 回归负责人来自回归分支的边界框响应对于IOD也很重要。与离散类信息相反，回归分支的输出可以提供与真实方向相矛盾的回归方向。即使图像不包含任何旧类别的对象，回归分支仍然会预测边界框，尽管置信度很低。这对将回归知识从教师检测器转移到学生检测器提出了挑战。此外，在以前的工作中，只有常见的选择策略依赖于敏感的超参数，如设置置信阈值或选择Top-K得分。这些经验实践可能导致的结果，小阈值忽略了几个旧的对象，而大的带来负面的响应。为了解决上述问题，我们提出了ERS策略，如算法1所示。我们分别从分类头和回归头中选择响应作为蒸馏节点。分类头。利用统计特性来选择分类头的响应，如L-3至L-11中所述。具体来说，我们首先计算每个节点的置信度得分然后，我们计算平均μ′C和标准d eσC′在L5和L6 与这些统计，弹性阈值τC′ 可以在L-7中获得。最后，我们选择响应节点，其置信度得分具有高分类置信度的对象的边界框被用作来自大于阈值τC′分蘖节在L-8到L-11之间，教师检测器，它忽略了回归分支的定位受益于GFLV 1检测器的边界框分布的一般表示，边界框的每个边缘e可以通过SoftMax函数表示为概率分布[38]。因此，每个边界框B的概率矩阵可以被定义为，B=[pt，pb，pl，pr]∈Rn×4（4）回归头。统计分布信息是uti-用于选择回归头的响应，如L-13至L-22所述。对于GFLV1，某个明确的边界框通常具有更清晰的分布。因此，如果分布是尖锐的，则Top-1值相对较大。基于上述统计特性，Top- 1值用于测量每个边界框的置信度具体来说，我们首先选择每个分布的Top-1值。然后，我们计算平均μ′B和因此，我们可以提取增量本地化标准d eσB′然后，阈值τB′L-15和L-16中的所有Top-1值在L-17中获得。最后，我们看到-- 从教师检测器T获得边界框B的知识，并使用KL将其传递到学生检测器S选择置信度大于阈值τB′ 从L-18到L-20 nms运算符返回一个发散损失，LLDeKLe∈B. BTj，BSj（5）在L-21中由NMS过滤的采样集。ERS背后的动机解释如下：保持不同反应之间的公平性。在正态分布中，约有16%和2.5%的sam-最后，回归水头处的局部化蒸馏损失增量定义为，J在[μ+σ，+ ]和[μ+ 2σ，+ ]区间内分别分布着样本。在我们的情况下，每个图像的阳性响应数量分布在100到1000相反，选择所有或前k个响应的策略会导致LERDbbox（BT，BS）=Lj（六）不公平的不同反应。统计特征弹性选择。在IODj=1其中Tj是教师检测器使用新数据从J个所选边界框的回归响应，并且S是学生检测器的对应回归响应。值得注意的是，提供额外的本地化信息。3.5. 弹性响应选择如图1所示，选择所有响应会导致性能不佳，因此响应选择对于防止灾难性遗忘非常重要。然后一个自然的问题出现了：如何选择响应作为蒸馏节点。任务中，背景对象生成的响应可能会超过前景对象生成的响应因此，高µ表示高质量候选，而低µ表示低质量候选。ERS可以根据不同分支的统计特性，弹性地选择足够多的正响应。4. 实验与讨论在本节中，我们使用基线检测器 GFLV 1 在 MSCOCO 2017 [7]上进行实验，以验证我们的方法。然后，我们进行消融研究，以证明每个组件的有效性。最后，我们讨论9431表1.不同场景下基于COCO基准的GFLV1检测器的增量结果（%）。（“遗忘”代表了对灾难性遗忘的改进。“”表示朝向上限的间隙。）场景方法APAP50AP75APSAPMAPL完整数据上界40.258.343.623.244.152.240班+ 40班50班+ 30班60班+ 20班灾难性遗忘LwF [21]RIOD [17]SID [28]ERD[21]第二十一话RIOD [17]SID [28]ERD[21]第二十一话RIOD [17]SID [28]ERD灾难性遗忘17.8 25.9 19.3 8.3 19.2 24.617.2（-0. 6/23。0）25.4 18.6 7.9 18.4 24.329.9（2012. 1/10。3）45.0 32.0 15.8 33.0 40.534.0（16.1%）。2006年2月2）51.4 36.3 18.4 38.4 44.936.9（2019. 1/103。3）54.5 39.6 21.3 40.4 47.514.1 20.6 15.2 7.0 14.5 19.25.0（1.0- 9. 1/35。2）9.5 4.6 5.0 6.7 5.728.5（1994年）2011年4月4日。7）43.2 30.2 15.4 31.6 38.033.8（2019. 2006年7月。4）51.0 36.1 17.6 38.1 45.136.6（2002年）。2003年5月。6）54.0 38.9 19.4 40.4 48.09.8 14.0 10.6 4.3 14.1 13.55.8（-4. 0/1034。4）10.8 5.3 4.0 8.5 7.725.4（2015. 1914年6月。8）38.8 26.8 13.9 29.0 33.732.7（2002年）。2007年9月。5）49.8 34.6 17.2 37.6 43.535.8（2006年）。0/104。4）52.9 38.4 20.6 39.4 46.54.3 6.5 4.5 2.1 5.1 6.870班+ 10班LwF [21]RIOD [17]SID [28]ERD7.1（2002年）8/33。第一章24.5（2000年）2/15。第七章）32.8（2008年）。2007年5月5日。四、34.9（2000年）2005年6月。第三章12.437.949.051.97.025.735.037.44.814.217.118.79.527.436.938.810.033.544.545.5我们的方法的应用场景。实施详情。我们在GFLV1检测器上建立我们的方法。在我们的实验中定义的教师和学生检测器是标准的GFLV1架构。对于GFLV 1探测器，ResNet-50用作其主干，FPN [22]用作其颈部。我们训练探测器遵循与原始纸张相同的设置所有的实验都是在8个NVIDIA Tesla V100 GPU上进行的，批量大小为8。对于参数α，我们默认使用α1=α2= 2数据集和评估指标。 MS COCO 2017是一个具有挑战性的对象检测数据集，包含80个对象类别。对于这个数据集的实验，我们使用训练集进行训练，使用minival集进行测试。标准COCO协议用作评估指标，即AP、AP50、AP75、APS、APM和APL。实验装置。对于每个增量步长，检测器通过12个历元（1x模式）进行训练。不同场景中所有探测器的设置都是一致的具体而言，我们在以下具有不同分割的班级智力学习场景中进行实验(i) 一步：40 + 40到70 + 10，步长为10个类，增加基类数，减少新类数。（二）多步式：两步式和四步式-每次分别增加20个新类和10个新类。（iii）最后40 +前40：最后40个类作为基础类，前40个类作为新类。4.1. 整体性能一步到位我们在表1中报告了前40个课程+后40个课程情景下的增量结果。在这种情况下，我们观察到，如果旧的检测器和新的数据直接用于进行微调过程，则AP下降到17.8%，相比之下，在全数据训练（上限）中的40.2%。这是因为微调过程使检测器对旧对象的记忆接近于0，导致灾难性的我们的方法在各种评估标准中远远优于微调当IoU为0.5，0.75和0.95时，AP分别提高了19.1%，28.6%和20.3%，表明该方法能够很好地解决catastrophic遗忘问题。值得注意的是，即使与整个数据集用于训练的上限相比，我们的方法也只有3.3%的性能差距。这表明学生检测器在保持对旧对象的良好记忆的同时，能够学习对新对象的知识。值得注意的是，如表1中所示，随着新用户的数量增加，微调的性能急剧下降。9432AP0.70.70.70.60.60.60.50.50.50.40.40.40.30.30.30.20.20.20.10.10.10.0类(a) 上限。0.0类(b) 灾难性的遗忘。0.0类(c) 弹性响应蒸馏。图3.不同学习方案之间每班AP。(a)检测器使用所有数据进行训练。(b)学生检测器已根据新类进行了微调。(c)学生检测器通过ERD学习。表2.在四步设置下，基于COCO基准的GFLV 1检测器的增量结果（AP/AP 50，%）。A（a-b）是类别a-b的一步正常训练，+B（c-d）是类别c-d的增量训练。40.2/58.3表3.基于GFLV 1的增量结果（AP/AP50，%）60tector对COCO基准下的两步设置，其中50A（a-b）和+B（c-d）的含义与表2相似。40方法A（1-40）+B（40-60）+B（60-80）A（1-80）3020100前40节课后40节课类在50级+30级、60级+20级和70级+10级的不同递增条件下，类数减少（17.8%~ 4.3%），而我们的方法仍保持较高的性能（36.9%~ 34.9%）。综上所述，我们的方法具有很大的鲁棒性，克服灾难性遗忘。此外，我们还将我们的方法与LwF [21]，RILOD [17]和SID [28]进行了比较。表1显示，尽管LwF在增量分类中表现良好，但在检测任务中，它的AP甚至比直接微调更对于典型的IOD方法（即RILOD和SID），为了与它们进行公平的比较，我们基于GFLV1检测器复制它们。对于RILOD，我们完全遵循他们的实现。对于SID，我们使用了本文中改进最大的组件。当与上述方法相比，所提出的方法在四个增量场景中实现了最先进的性能。值得注意的是，性能改进都是显著的。为了更直观地表达，我们在图4中可视化了前40个类和后40个类中所有类的AP。此外，每个类的结果在图图4.前40节课与后40节课的AP。其中蓝色列表示前40个类中的每类AP，并且橙色列表示后40个类中的每类如图3所示，所提出的方法为旧类保留了大部分信息，同时从新来的类中学习知识。多步。我们报告了多步设置下的增量结果，以说明所提出的方法的持续学习能力。在表3（两步）和表2（四步）中，我们的方法在两种多步设置下的每个增量步都比微调好很多。这是因为，检测器不断地从动态数据流中获取知识，新知识与旧知识相互干扰，触发灾难性遗忘，而ERD在每个步骤中提供有价值的响应以解决问题。值得注意的是，在两个多步设置下，随着新类数量的增加，RILOD和SID的AP急剧下降（27.8%至15.8%和34.0%至23.8%，25.4%至8.4%和34.6%至12.6%），而我们的方法仍然保持了较高的性能（36.7%至32.4%和36.4%至20.7%）。ERD能够恢复以前的类perfor-前40节课最后40节课前40节课最后40节课前40节课最后40节课APAPAP上CatastroERD约束phic遗忘45.441.635.035.332.10.3灾难性遗忘10.7/15.89.4/13.3RIOD [17]SID [28]45.7/66.327.8/42.834.0/51.815.8/4.023.8/36.540.2/58.3ERD36.7/54.632.4/48.6方法A（1-40）+B（40-50）+B（50-60）+B（60-70）+B（70-80）A（1-80）[17]第十七话5.8/8.525.4/38.95.7/8.311.2/17.36.3/8.510.5/15.63.3/4.88.4/12.5SID [28]34.6/52.124.1/38.014.6/23.012.6/23.3ERD36.4/53.930.8/46.726.2/39.920.7/31.89433表4.消融研究（%）基于GFLV 1探测器，使用COCO基准，在前40个类别+后40个类别下。（23.8（2006年）。0/16。四、33.2（2015年）。2007年4月。0个）不阈值APAP50AP75APSAPMAPLα1， 2= 1，136.554.239.220.640.346.9α1， 2= 1，236.854.439.621.540.447.5α1， 2= 2，136.754.339.621.540.447.6α1， 2= 2，236.954.539.621.340.447.5达到一个令人尊敬的水平。结果表明，该方法具有显著的缓解灾难性损失的能力4.2. 消融研究我们验证了所提出的方法在MS COCO上的每个组件的有效性。在表4中，“KD”表示仅使用蒸馏损失而不进行选择，而“ERD”表示引入了选择策略。“所有CLS +所有REG”表示来自分类和回归分支的响应在增量过程中被同等对待，该增量过程用作我们的基线。“所有CLS”表示增量过程中的所有分类响应都被同等对待。“all reg”表示在增量过程中平等对待所有回归响应。 “cls + ERS” denotes that the ERS strategy isemployed on the classifi- cation branch to conductincremental distillation, as shown in Equation “cls + reg +ERS” denotes responses on re- gression6.在表4中，在分级或回归分支上的蒸馏只能获得低性能（即AP的23.8%和13.0%）。当使用来自回归分支的所有响应时，AP甚至低于微调策略，这支持了我们在图1中所示的发现。相比之下，将分类和回归分支的响应组合起来，AP达到31.5%。当ERS参与从分类分支中选择响应时，学生检测器可以获得更高的结果（33.2%）。此外，当在回归分支上执行ERS时，AP继续增加到36.9%，这是与在回归分支上执行ERS相比的显著改善（即5.4%）。指出广告-参数α。我们进行了四组实验来研究所提出的方法对参数α的鲁棒性，该参数α用于从分类头和回归头中弹性地选择正响应。在表5中，从集合（[1，1]，[1，2]，[2，1]，[2，2]）中选择α1和α2的不同组合来执行训练过程。我们观察到最大性能差距仅为0.4%，这表明所提出的ERS对参数α不敏感。因此，建议的ERS可以被视为几乎无参数。4.3. 讨论在本节中，我们将进一步深入了解基于响应的IOD。不同探测器上的泛化。我们进行了扩展实验，以验证所提出的方法的FCOS检测器的通用性。对于FCOS，我们只需要将LD损耗替换为GIoU损耗。对于回归和中心分支，我们采用类别信息的统计特性来确定弹性响应。其他设置与所提出的方法一致表7中的结果表明，无论检测器结构如何，我们的方法仍然带来稳定的增益。综上所述，我们只需要对我们的方法进行轻微的调整，以适应不同探测器的头部，这表明了所提出的方法的通用性。弹性反应有助于学习和概括。考虑到COCO的长尾分布，我们在最后40个班级+前40个班级的情景下配置了一个实验在这种情况下，前40个类的对象包含更多的信息，这意味着可以获得更多的响应。如表6所示，性能可以进一步提高，与上限的差距更小，为2.7%，这表明所提出的方法受益于更多的响应，以减轻灾难性遗忘。不同组件之间的距离。为了验证为什么基于响应的蒸馏与基于特征的解决方案相比可以获得更高的性能，我们随机灾难性的遗忘方法APAP50AP75APSAPMAPL上界40.258.343.623.244.152.2灾难性遗忘17.825.919.38.319.224.6KD：all cls + allreg KD：all cls31.5（2013. 2008年7月。第七章）48.336.633.424.917.711.835.327.241.332.9KD：所有注册ERD：cls + ERSERD：cls + reg + ERS13.0（1.4- 4. 2007年8月27日（二）36.9（2019.1/103。第三章21.151.254.513.435.239.65.018.521.314.737.840.418.643.847.5表5. ERS的变化α（%）。与基线。所有这些结果都清楚地表明9434表6.增量结果（%）基于GFLV1检测器，COCO基准测试，最后40个类别+前40个类别。（“∆”表示对灾难性遗忘的改进。“”表示朝向上限的间隙。）34.1（2011年）。2006年5月。第一章表7.基于FCOS检测器的增量结果（%）模型方法中心度弹性AP AP50AP 75上界✔38.557.541.3微调✔16.725.617.9FCOSERD✔34.452.836.5✔✔34.252.436.6表8.基于特征和基于响应的解决方案的定量结果（%）。方法特征响应弹性AP AP50AP 75进一步分析基于特征和基于响应的解决方案之间的定量差异。如表8所示，当将FPN（即特征层）与头部中的所有响应组合时，它将产生积极的效果。原因是与单独的头部相比，特征层为学习过程提供了更多的容量。然而，当ERS策略被添加到头部时，最终性能显著提高（32.5%对36.9%），而特征层的卷入带来负面影响（AP中为-0.4%）。我们猜测一个可行的解释可能是优化方向发生了变化，因为特征层倾向于全局方向，而头部期望在选择后保留正响应。70006000500040003000200010000分类回归组件FPN5. 结论本文在目标检测领域设计了一种基于响应的增量式检测方法，有效地解决了灾难性遗忘问题。首先，我们从分类头和回归头中学习响应，并在回归响应中引入增量局部化蒸馏其次，设计了弹性选择策略，使不同的头提供合适的响应。大量的实验验证了该方法的有效性最后，详细分析讨论了我们的方法的普遍性，图5.不同成分的特征距离分析。从COCO minival中选取10幅图像，使用不同的训练策略计算不同分量的L2特征距离。如图5所示，“All”表示完整的数据训练策略 ;“Finetune” 表示微调策略 ;“Incremental” 表示所提出的方法。当比较特征层）。这意味着基于反应的蒸馏为减轻灾难性遗忘提供了更多的贡献。基于特征和基于响应的解决方案的定量分析。除了图5中的定性分析外，分析了增量检测任务中基于响应和基于特征提取的本质区别，为该领域的进一步探索提供了思路。更广泛的影响IOD的研究将使我们从系统层面更好地理解神经网络的形成机制，为终身学习机制的发展提供技术基础。最终目标是探测器可以像创造物一样进行持续学习。然而，增量学习后的模型可能会导致一些隐私问题，而我们可以通过限制训练模型的可访问性来缓解它All对FinetunetalAll对Incremen所有✔31.5 49.6 33.231.7 49.9 33.3距离方法APAP50AP75APSAPMAPL上界40.258.343.623.244.152.2灾难性遗忘22.632.724.215.125.027.6LwF [21]RIOD [17]20.5（-2。1/19。第七章）29.951.122.136.813.019.122.538.025.343.9SID[28]33.5（10）。2006年9月。（7）50.936.319.037.743.0ERD37.5（1994年）。2002年9月。（7）55.140.421.341.148.2所有✔31.548.333.4FPN +全部✔✔32.549.734.4FPN + ERS✔✔✔36.554.039.0ERD✔✔36.954.539.69435引用[1] RahafAljundi ， FrancescaBabiloni ， MohamedElhoseiny，Marcus Rohrbach，and Tinne Tuytelaars.记忆感知突触：学习什么（不）忘记。计算机视觉中- ECCV 2018 -第15届欧洲会议，第11207卷，第144-161页。Springer，2018. 2[2] 克里斯蒂安·布西拉，里奇·卡鲁阿纳，亚历山德鲁·尼古列斯库-米兹尔。模型压缩。在第十二届ACM SIGKDD知识开发和数据挖掘国际会议上， 2006 年，第535ACM，2006年。2[3] Akshay Chawla，Hongxu Yin，Pavlo Molchanov和JoseM.阿尔瓦雷斯用于目标检测的无数据知识提取。在IEEE Winter Conference on Applications of ComputerVision，WACV 2021，第3288-3297页中。IEEE，2021。2[4] 陈德芳，梅建平，王灿，闫峰，陈春。与不同的同行进行在线知识蒸馏。在第三十四届AAAI人工智能会议上，AAAI，第3430-3437页，2020年。2[5] Guobin Chen，Wonggun Choi，Xiang Yu，Tony X.汉和曼莫汉·钱德拉克利用知识蒸馏学习有效的目标检测模型。神经信息处理系统进展30：神经信息处理系统年度会议NeurIPS 2017，第742-751页，2017年。一、二[6] Pengguang Chen，Shu Liu，Hengshuang Zhao，and JiayaJia.通过知识回顾提炼知识。在IEEE计算机视觉和模式识别会议上，CVPR，第5008-5017页。计算机视觉基金会/ IEEE，2021。1[7] 陈新蕾，方浩，林宗毅，罗摩克里希纳·韦丹坦，索拉布·古普塔，彼得·多尔，和C.劳伦斯· 齐特尼克。Microsoft COCO 标题：数据收集和评估服务器。CoRR，abs/1504.00325，2015。4[8] 戴兴，姜泽仁，赵武，鲍一平，王志成，刘思，周二进。用于对象检测的通用实例蒸馏。在IEEE计算机视觉和模式识别会议上，CVPR 2021，虚拟，2021年6月19日至25日，第7842-7851页，2021年。2[9] 陶峰、纪凯凡、昂边、刘畅、张建州。使用图卷积网络识别广播视频中的球员。模式识别。，124：108503，2022. 1[10] 罗斯·格希克。Fast R-CNN，2015. 2[11] Ian J. Goodfellow ， Mehdi Mirza ， Da Xiao ， AaronCourville，and Yoonge Bengio.基于梯度的神经网络中catastrophic遗忘的实证研究，2015年。1[12] Jianping Gou，Baosheng Yu，Stephen J. Maybank，andDacheng Tao.知识蒸馏：一项调查。 Int. J. 计算机。目视，129（6）：1789-1819，2021. 一、二[13] Jianyuan Guo ， Kai Han ， Yunhe Wang ， Han Wu ，Xinghao Chen，Chunjing Xu，and Chang Xu.通过分离的特征提取对象检测器在IEEE计算机视觉和模式识别会议上，CVPR 2021，虚拟，2021年6月19日至25日，第2154计算机视觉基金会/ IEEE，2021年。2[14] 杰弗里·E Hinton，Oriol Vinyals，and Jeffrey Dean.在神经网络中扩散知识。arXiv预印本，1503.02531，2015年。第1、3条[15] K.约瑟夫，萨尔曼H。Khan，Fahad Shahbaz Khan，andVineeth N. Balasubramanian开放世界物体检测。在IEEE计算机视觉和模式识别会议上，第5830-5840页计算机视觉基金会/ IEEE，2021。2[16] 放大图片作者：James Kirkpatrick，Razvan Pascanu，Neil C.放大图片创作者：Robert A.鲁苏，基兰米兰，约翰全，蒂亚戈拉马略，阿格涅斯卡格拉布斯卡-巴尔温斯卡，德米斯哈萨比斯，克劳迪娅克洛帕斯，达尚库马兰和拉娅哈德塞尔。克服灾难性的-进入神经网络。美国国家科学院院刊，114（13）：3521-3526，2017。2[17] Dawei Li ， Serafettin Tasci ， Shalini Ghosh ， JingwenZhu，Junting Zhang，and Larry P. Heck. RILOD：用于边缘物体检测的近实时增量学习在第四届ACM/IEEE边缘计算研讨会的开幕式上，第113-126页ACM，2019年。二五六八[18] Pengyang Li，Yanan Li，and Donghui Wang.类-增量少数镜头对象检测，2021年。2[19] 李翔、王文海、胡晓林、李俊、唐金辉、杨健。广义焦点损失V2：学习可靠的定位质量估计密集对象检测。在IEEE计算机视觉和模式识别会议上，CVPR 2021，第11632-11641页。计算机视觉基金会/ IEEE，2021。1[20] Xiang Li ， Wenhai Wang ， Lijun Wu ， Shuo Chen ，Xiaolin Hu，Jun Li，Jinhui Tang，and Jian Yang.广义焦点损失：学习用于密集对象检测的合格和分布式边界框神经信息处理系统的进展33：神经信息处理系统年会，NeurIPS 2020，2020。二、三[21] 李志忠和Derek Hoiem。学而不忘。IEEE Trans.模式分析马赫内特尔，40（12）：2935二五六八[22] 放大图片作者：林宗毅，彼得·多尔，罗斯·B. Girshick，KaimingHe，Bharath Hariharan，and Serge J. Belongie.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议上，CVPR 2017，第936-944页。IEEE计算机学会，2017年。5[23] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andP i otrDoll a'r. 密集目标检测的焦面损失。 IEEEI

下载后可阅读完整内容，剩余1页未读，立即下载