均衡聚焦损失：用于密集长尾目标检测的一级检测器

164 浏览量更新于2023-10-26 收藏 752KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6990用于密集长尾目标检测的均衡聚焦损失李波1<$姚永强2 <$谭静茹1张刚3于峰伟2卢建伟1<$叶罗11同济大学2商汤科技3清华大学{1911030，叶洛}@ tongji.edu.cn，{soundbupt，tanjingru120}@gmail.comyufengwei@sensetime.com，zhang-g19@mails.tsinghua.edu.cn，jwlu33@126.com摘要尽管最近长尾目标探测取得了成功，但几乎所有的长尾目标探测器都是基于两阶段范式开发的。在实践中，单级检测器在行业中更普遍，因为它们具有易于部署的简单快速的管道然而，在长尾场景中，这一系列的工作迄今为止还没有被探索过。在本文中，我们研究一级检测器是否可以在这种情况下表现良好。我们发现阻碍单阶段检测器取得优异性能的主要障碍是：在长尾数据分布下，类别存在不同程度的正负传统的焦点丢失平衡了训练过程与前景两段式截割头罗亚利尼RPN罕见频繁共同背景一段式去胶头所有类别的调整因素相同，因此无法处理长尾问题。为了解决这个问题，我们提出了均衡焦点损失（EFL），重新平衡的损失贡献的积极和消极的样本，骨干背景骨干根据其不平衡程度独立地划分为不同的类别具体而言，EFL采用了一个与类别相关的调节因子，该因子可以根据不同类别的训练状况进行动态调整。在具有挑战性的LVIS v1基准上进行的大量实验证明了我们所提出的方法的有效性通过端到端的培训管道，EFL在整体AP方面达到了29.2%，并在罕见类别上获得了显着的性能提升，超过了所有现有的最先进的方法。该代码可从https：//github.com/ModelTC/EOD网站。1. 介绍长尾目标检测是一个具有挑战性的任务，越来越受到人们的关注。在长尾情况下，数据通常具有齐普菲分布（例如，LVIS*同等贡献。†通讯作者。双级流水线一级流水线图1.一级检测器和两级检测器中训练管道的可视化不同的形状表示不同的类别，其对应的颜色表示分类器在不同阶段的标签。[11]），其中一些头类包含大量实例并主导训练过程。相比之下，大量的tail类是实例稀缺的，因此性能很差。长尾对象检测的常见解决方案是数据恢复[6，11，35，45，47]，解耦训练[17，25，45]和损失权重[39，40，44]。尽管在缓解问题方面取得了这些成功，但几乎所有这些检测器都是基于R-CNN流行的两阶段方法开发的[12，36]。在实践中，一级检测器比两级检测器更适合于现实场景，因为它们计算效率高且易于部署。然而，在这方面没有相关的工作。与两阶段方法相比，频繁共同罕背景6991gion proposal network（RPN [36]）在将建议馈送到最终分类器之前过滤掉大多数背景样本，一级检测器直接检测规则密集的候选位置集如图1，由于密集模式，在一级检测器中引入了极端的前景-背景不平衡结合前景类别（即类别的前景样本）不平衡，严重降低了一级检测器的性能。焦点丢失[27]是前景-背景不平衡问题的传统解决方案。它专注于硬前景样本的学习，并通过专门的调制因子减少容易背景样本的这种损失再分配技术在类别平衡分布下工作良好，但不足以处理长尾情况下前景类别之间的不平衡问题。为了解决这个问题，我们从现有的解决方案（例如，EQLv2 [39]）在两阶段管道中，并使其适应于与FO一起工作。在一级检测器中一起校准损失。不幸的是，我们发现，这些解决方案只带来边际改善相比，他们的应用程序，两个阶段的检测器（见表。1）。然后，我们认为，简单地将现有的解决方案与焦点损失相结合，不能同时解决这两种类型的通过比较不同数据分布中阳性样本与阴性样本的比例（见图1），（2）进一步认识到这些不平衡问题的实质罕见类别比频繁类别遭受更严重的正-负不平衡，因此需要更多的重视。在本文中，我们提出了均衡焦点损失（EFL）通过引入一个类别相关的调制因子到焦点损失。提出了具有两个解耦动态因子的调制因子（即，聚焦因子和加权因子）独立地处理不同类别的正负不平衡。聚焦因子根据其对应类别的不平衡程度来确定对硬正样本的学习集中度。加权因子增加了稀有类别的影响，确保稀有样本的损失贡献不会被频繁样本淹没。这两个因素的协同作用使EFL能够克服单阶段长尾检测器中前景-背景不平衡和前景类别不平衡的问题。我们对具有挑战性的LVIS v1 [11]基准进行了广泛的实验。通过简单有效的一阶段训练管道，EFL实现了29.2%的AP，超过了所有现有的长尾目标检测方法。OpenImages [20]上的实验结果也证明了我们方法的泛化能力。综上所述，我们的主要贡献可以概括如下：（1）首次研究了单阶段长尾目标检测我们希望这将激励社区重新思考长尾场景中单级探测器的能力和价值。(2)我们提出了一种新的均衡焦点损失（EFL），扩展了原来的焦点损失与类别相关的调制因子。它是焦点丢失的一种广义(3)我们进行了广泛的实验LVIS v1基准，结果表明，我们的方法的有效性它建立了一个新的国家的最先进的，可以很好地适用于任何一级检测器。2. 相关工作2.1. 通用目标检测近年来，受益于卷积神经网络（CNN）的巨大成功[13，14，16，19，32，38]，计算机视觉社区在目标检测方面取得了现代目标检测框架大致可分为两阶段方法和一阶段方法。两阶段方法。随着Faster R-CNN [36]的出现，两阶段方法[2，3，9，10，12，36]在现代目标检测中占据主导地位。两级检测器首先通过区域预处理机制（例如，选择性搜索[43]，或RPN [36]），然后根据这些建议执行特征图的空间提取以进行进一步预测。由于建议机制，大量的背景样本被过滤掉。在[36]之后，大多数两阶段检测器的分类器在前景和背景样本的相对平衡分布上进行训练，比例为1：3。单阶段方法。一般来说，一级检测器[5，7，21，27，29，33，34，42]具有简单快速的训练管道，更接近真实世界的应用。在单阶段场景中，检测器直接从特征图预测检测框。一阶段检测器的分类器在约104到10 4的密集集上训练。105候选人，但只有少数候选人是前景样品广泛的研究[29，37，50]试图广告-从硬示例挖掘视图或更复杂的重新分配/重新加权方案中处理极端的前景-背景不平衡问题[1]。焦点损失[27]及其衍生物[22-从焦点损失的建议，一级检测器实现非常接近的性能，以更高的推理速度的两阶段的方法。最近，也有一些尝试[8，18，48，51]从标签分配的角度来提高性能我们提出的EFL可以很好地应用于这些单阶段框架，并在长尾场景中带来显着的性能增益。6992∈−2.2. 长尾目标检测与一般对象检测相比，长尾对象检测[30]是一项更复杂的任务，因为它在前景类别之间存在极端的不平衡。解决这种不平衡的一个简单方法是在训练过程中执行数据重新分配。重复因子采样（RFS）[11]对尾类的训练数据进行过采样，而对图像级别的头类的训练数据进行欠采样。Wang等人[45]以解耦的方式训练检测器[17]，并提出一个额外的分类分支，其中包含来自实例级别的类平衡采样器。对于est R-CNN [47]，使用不同的NMS阈值对RPN中的建议进行重新采样。其他作品[6，35]通过元学习或记忆增强的方式实现数据存储损失重新加权是解决长尾分布问题的另一种广泛使用的解决方案。 Tan 等人 [40] 提出了均衡损失（EQL），将头类的梯度抑制减轻到尾类。EQLv2 [39]是EQL的升级版本，采用了一种新的梯度引导机制来重新加权每个类别的损失。Wang等人[46]从无偏的角度解释了长尾分布问题，并提出了自适应类抑制损失（ACSL）。DisAlign [49]提出了一种广义的重新加权方法，该方法在损失设计之前引入了平衡类。除了数据恢复和损失重新加权之外，许多优秀的作品从不同的角度进行了尝试，例如解耦训练[25，45]，边缘修改[35，44]等[15，31，41]。然而，所有这些方法都是用两级目标检测器开发的，到目前为止还没有关于一级检测器的相关工作。在本文中，我们提出了第一个一阶段的解决方案，超越了所有现有的方法，在一个简单而有效的方式长尾对象检测。3. 方法3.1. 再谈焦点丢失在单级探测器中，焦点损失[27]被广泛用于缓解前景-背景不平衡问题。它重新平衡了易样本和硬样本的损失贡献，大大削弱了大多数背景样本的影响。它的二元分类公式是：FL（pt）=−αt（1−pt）γlog（pt）（1）如[27]中所述，术语pt[0，1]指示对象候选的预测置信度得分，并且项αt平衡了候选样本和候选样本的重要性。调制因子（1p（t）γ是焦点损失的key分量。它通过预测的pt和聚焦参数γ来降低容易样本的损失，并专注于硬样本的学习。如[22]所述，大量阴性样本很容易81012141618200 200 400 600 800 1000 1200分类索引图2. LVIS v1 [11]列车拆分和COCO [28]trainval35k拆分上的阳性样本与阴性样本数量之比。我们证明了比率的对数值，并将COCO 80类别与LVIS 1203类别对齐。ATSS [48]被采用作为样本选择策略，以区分前景样本和背景样本。而阳性样本通常很难分类。因此，正样本与负样本之间的不平衡可粗略地视为硬样本与易样本之间的不平衡。聚焦参数γ确定焦点损失的影响。可以从Eq.（1）大的γ将极大地减少来自大多数负样本的损失，从而改善正样本的影响。这一结论表明，正样本与负样本的不平衡程度越高，γ的期望值越大。当涉及到多类情况时，焦点损失被应用于C分类器，其作用于由每个实例的sigmoid函数转换的输出logits。C是类别的数量，这意味着一个分类器是为一个特定的类别，即。二进制分类任务。由于焦点丢失平等对待所有类别的学习具有相同的调节因素，它无法处理长尾不平衡问题（见表1）。2）。3.2. 均衡焦损公式在长尾数据集（即，LVIS），除了前景-背景不平衡之外，一级检测器的分类器还受到前景类别之间的不平衡的影响。如图2所示，如果我们从y轴观察，正样本与负样本之间的比值远小于零，这主要揭示了前景和背景样本之间的不平衡在这里，我们将该比率的值称为正负失衡度。从x轴的角度可以看出，各类别的不平衡程度差异很大，这表明，CocoLVIS比值（对数值）6993b= 2，0= 0vb= 2，1= 1vb= 2，2= 2vb= 2，3= 3vb= 2，4= 4vJEFL（xt）=（xt））log（（xt））（一）联系我们−vvv−t t t t ttv≥554433221104 2 0 2 4Xt(a) 不含权重因子的均衡焦点损失04 2 0 2 4Xt(b) 用权重因子均衡焦点损失。图3.有（b）和没有（a）加权系数的EFL之间的损失贡献比较。xt=（2y 1）x，其中x是输出预测的logit，y0，1是二进制分类的基础事实标签。σ表示sigmoid函数。我们将γb设置为始终等于2，并忽略EFL中αt不同的颜色表示不同的类别。平衡前景类别。显然，在平衡数据分布（即，COCO），各类别的不平衡程度相似。因此，对于焦点损失中的所有类别使用相同的调制因子就足够了。相比之下，在长尾数据的情况下，这些不平衡程度是不同的.罕见类别比频繁类别遭受更严重的正负失衡。如表所1，大多数一阶段检测器在罕见类别上的表现指出同一个调整因子并不适用于不同程度的正负不平衡问题。聚焦因子。在此基础上，我们提出了均衡聚焦损失（EFL）模型，该模型采用了一个与类别相关的聚焦因子，分别解决了不同类别的正负不平衡问题我们将第j类的损失公式化为：EFL（p）=−α（1−p）γjlog（p）（2）其中αt和pt与病灶丢失时相同。参数γj是第j个猫的聚焦因子egory，其在焦点损失中起与γ类似的作用。如第3.1、不同的γ值对应不同程度的正负失衡问题。我们采用一个大的γj来缓解罕见类别中严重的对于不平衡性较弱的频繁类别，γj取小值较为合适。聚焦因子γj被解耦为两个分量，具体地，类别不可知参数γb和类别特定参数γj：其中γb表示平衡数据场景中控制分类器基本行为的聚焦因子。参数γj0是与第j类不平衡度有关的可变参数。它决定了学习的集中度在正负失衡问题上的程度。受等式Lv2 [39]的启发，我们采用梯度引导机制来选择γj。参数gj表示第j个cat-egory的正样本与负样本的累积梯度比. 如[39]中所述，gj的较大值指示第j个类别（例如，频繁的）被训练为平衡的，而小的值指示类别（例如，罕见）训练不平衡。为了满足对γj的要求，我们将gj的值固定在[0，1]范围内，并采用1gj来验证其分布。超参数s是确定EFL中γj的上限的比例因子。与焦点丢失相比，EFL独立处理每个类别的正负不平衡问题，这导致性能改善（见表1）。（3）第三章。权重因子。即使引入聚焦因子γ j，仍然存在两个影响性能的障碍：（1）对于二元分类任务，较大的γ适用于更严重的正负不平衡问题。而在多类的情况下，如图所示。 3a，对于相同的xt，γ值越大，损失越小。这就导致了当我们想要提高学习一个正负失衡严重的类别时的专注度时，我们不得不牺牲它在整个训练过程中的部分损失贡献。这样的困境阻碍了稀有类别获得优异的性能。（2）当xt很小时，γj=γb+γj=γb+ s。1−gj（三）来自具有不同聚焦因子的不同类别的样本的损失实际上，我们预计稀有硬样品会产生更多的损失贡献b= 2，0= 0vb= 2，1= 1vb= 2，2= 2vb= 2，3= 3vb= 2，4= 4vJEFL（xt）=（j/b）（1（xt））log（（xt））损失损失6994v+γγb+γv不J.而不是频繁的困难，因为他们是稀缺的，我们提出加权因子，以减轻上述问题，通过重新平衡不同类别的损失贡献。与聚焦因子类似，我们为罕见类别分配较大的权重因子值，以提高其损失贡献，同时保持频繁类别的权重因子接近1具体来说，我们设定了重量-将第j类的因子转化为γb+γj，γb聚焦因子。EFL的最终公式为：EFL（pt）=−EFLαγbvγbJ（1−pt）vlog（pt）j=1（四）如图3b所示，通过加权因子，EFL显著增加了稀有类别的损失贡献。同时，相对于频繁硬样本，该算法更关注于稀有硬样本的学习。聚焦因子和权重因子共同构成了外语教学中的类相关调节因子它使分类器能够根据样本的训练状态pt及其相应的分类器参数来动态地调整样本响应类别状态γj. 如SEC所示。4.3两个聚焦因子和权重因子在外语教学中起着重要的作用。同时，在平衡数据分布中，所有γj=0的EFL等效于焦点损失。这种吸引人的性质使得EFL可以很好地应用于不同的数据分布和数据采样器。4. 实验4.1. 实验设置数据集。我们在具有挑战性的LVIS v1 [11]数据集上进行实验。LVIS是一个大词汇量的长尾对象识别基准测试，它包含1203个分类词。遵循常见做法[39，44]，所有100k图像（在训练分割中约有130万个实例）用于训练，所有20k图像（在val分割中）用于分析验证。LVIS v1数据集中的类别根据出现在火车分裂中的图像数量分为三组：罕见类别（1-10张图像），常见类别（11-100张图像）和频繁类别（>100张图像）。评估指标。对象检测的结果使用广泛使用的度量AP进行评估，该度量AP在0.5至0.95的IoU阈值范围内进行框预测。此外，我们还报告了APr、APc和APf，分别表示罕见、常见和频繁类别的AP框。实施详情。我们采用ImageNet [4]预训练的ResNet-50[13]作为主干，特征金字塔网络（FPN）[26]作为颈部。使用SGD算法训练网络在培训阶段，规模表1. LVIS v1基准上不同单级探测器与焦点损失和EQLv2 [39]组合的结果。EQLv2 Focal表示这种组合。所有检测器都使用ResNet-50-FPN通过使用重复因子的2x计划进行取样器FCOS测试表明报告的FCOS结果是用中心采样策略训练的[48]。采用抖动和随机水平翻转作为数据增强。我们在16个GPU上训练模型，总批量大小为16（每个GPU 1张图像），并将初始学习率设置为0.02。分类分支中最后一层的先验概率被初始化为0.001，如[27，40]所在推理阶段，我们将输入图像的短边调整为800像素，并保持长边小于1333像素，而不改变长宽比。未使用测试时间增加。由于一级检测器通常预测具有低分数的盒子，因此我们在NMS之前不过滤掉任何预测的盒子（将最小分数阈值设置为0）。在[11]之后，我们选择每个图像的前300个置信框作为最终检测结果。由于两阶段方法的大多数实验结果都基于Mask R-CNN [12]框架，因此其释放的检测性能APb受到分割性能的影响。我们通过使用Faster R-CNN [36]框架重新运行它们的代码来报告这些作品的检测结果，以进行公平的比较。所有模型均通过2x时间表用重复因子采样器（RFS）进行训练。对于我们提出的EFL，我们设置平衡因子αt=0。25和基本聚焦参数γb=2。[27]这是一种与局部缺失相一致的现象超参数s被设置为8，有关这种比例因子的影响的更多细节在Sec.四点三。稳定设置和改善基线。提出的在选项卡中。1，两阶段基线Faster R-CNN [36]和广泛使用的一阶段检测器RetinaNet [27]之间存在很大的性能差距为了弥合这一差距，我们研究了大量的单阶段框架，以建立一个更适合长尾任务的改进基线。ATSS [48]在这些方法中脱颖而出，C方法APAPRAPCAPfRetinaNet [27]+EQLv2焦点18.520.5（+2.0）9.612.616.119.225.025.4[42]第四十二话22.612.720.928.9+EQLv2焦点23.0（+0.4）14.121.328.7[第18话]23.714.221.630.2+EQLv2焦点24.1（+0.4）16.522.129.8ATSS [48]24.713.723.431.1+EQLv2焦点25.2（+0.5）15.024.330.8更快的R-CNN [36]24.114.722.230.56995联系我们}骨干方法战略采样器时代APAPRAPCAPfResNet-50一期RetinaNet [27]end-to-endRFS2418.59.616.125.0基线†end-to-endRFS2425.714.323.832.7EFL（我们的）end-to-endRFS2427.520.226.132.4ResNet-101一期RetinaNet [27]end-to-endRFS2419.610.117.326.2基线†end-to-endRFS2427.014.425.734.0EFL（我们的）end-to-endRFS2429.223.527.433.8表2. EFL与其他方法对LVIS v1值分割的主要结果比较。基线†表示改进的基线。RFS和CBS分别表示重复因子采样器和类平衡采样器。所有端到端方法都是通过RFS的2x时间表进行训练的，而解耦方法在微调阶段具有CBS的额外1x时间表简单性和高性能。通过实验发现，大多数单阶段检测器的训练过程是相当不稳定的，结果波动，有时会遇到NaN问题。直观地说，主要的罪魁祸首是在早期训练阶段由严重的不平衡问题引起的异常梯度。为了稳定训练过程，我们采用了稳定的设置，将预热迭代从1000扩展到6000，并利用最大归一化值为35的梯度裁剪。同时，在ATSS中，我们采用了一个IoU分支来代替中心分支，并将锚标度设置为8到6，8，超参数k=18，以覆盖更多潜在的候选者。稳定和改进的设置相结合除非另有说明，外语是用改进的基线训练的.4.2. 基准测试结果为了显示我们所提出的方法的有效性，我们将我们的方法与其他报告最先进性能的作品进行比较。如表中所示。2.在ResNet-50-FPN的支持下，我们提出的方法实现了27.5%的AP，这使我们提出的改进基线提高了1.8%的AP，甚至在稀有类别上实现了5.9点的改进。结果表明，英语作为一门外语能够处理极端的正负失衡问题，稀有类别的LEM。与其他端到端方法（如EQL [40]，EQLv2 [39]和Seesaw Loss [44]）相比，我们提出的方法分别优于2.4%AP，2.0%AP和1.1%AP。与cRT [17]和BAGS [25]等解耦训练方法相比，我们的方法通过优雅的端到端训练策略（2.7% AP和1.5% AP）超越了它们。除了高性能外，我们还保留了单级检测器的优点，如简单，快速和易于部署。使用更大的ResNet-101-FPN主干，我们的方法在改进的基线（+2.2%AP）上仍然表现良好同时，我们的方法保持稳定的perfor- mance的改进相比，所有现有的方法，无论是端到端或解耦。没有花里胡哨的，我们的方法实现了29.2%的AP，建立了一个新的国家的最先进的。值得注意的是，性能的罕见类别的改进的基线没有获得太多的性能改善从较大的骨干，而EFL（从20.2% AP到23.5% AP）。这表明我们提出的方法在不同的主干上具有良好的泛化能力。4.3. 消融研究英语学习中各成分的影响。外语教学中有两个组成部分，即聚焦因子和权重因子.两级更快的R-CNN [36]end-to-endRFS2424.114.722.230.5EQL [40]end-to-endRFS2425.115.724.430.1[39]第三十九话end-to-endRFS2425.516.423.931.2[44]第四十四话end-to-endRFS2426.417.525.331.5cRT [17]解耦RFS+CBS24+1224.815.923.630.1行李[25]解耦RFS+CBS24+1226.017.224.931.1两级更快的R-CNN [36]end-to-endRFS2425.715.124.132.0[39]第三十九话end-to-endRFS2426.918.225.432.4[44]第四十四话end-to-endRFS2427.818.727.032.8行李[25]解耦RFS+CBS24+1227.618.726.532.66996≥WF FF APAPr25.7 14.3✓26.1 15.6APC23.824.5APf32.732.6✓26.2 17.7 24.731.5电话： 021- 88888888表3.均衡焦点损失中每个组件的消融研究。WF、FF分别表示加权因子和聚焦表5.在我们提出的改进基线中对每个组件进行消融研究。STS、IB、IA分别表示稳定的设置、IoU分支和增加的锚标度。方法EFLAPAPR APC APfRetinaNet [27]✓18.59.616.125.020.5（+2.0）15.218.624.8[42]第四十二话22.6 12.720.9二十八点九分表4.超参数s的烧蚀研究。采用s= 823.4（+0.8）14.921.9二十八点七分[第18话]✓23.714.221.630.225.6+（1.9）19.823.830.2作为其他实验中的默认设置。基线†25.7 14.323.8三十二点七ing因子为了证明每个组件的效果，我们通过2x计划和重复因子采样器使用我们提出的改进基线来训练模型。如Tab.所示。3、权重因素和聚焦因素在外语教学中均起重要作用对于聚焦因子，它实现了从25.7%AP到26.2%AP的改善。同时，它在罕见类别上带来了3.4%的AP改善，这表明它在缓解严重的正负失衡问题方面的有效性。在权重因子方面，我们通过在EFL各范畴中设置聚焦因子γb来因此，加权因子的功能也可以被视为与焦点损失相结合的重新加权方法正如预期的那样，加权因子比改进的通过这两种成分的协同作用，EFL显著提高了改进基线的性能，从25.7%AP提高到27.5%AP。超参数的影响。过多的超参数会影响方法的泛化能力在本文中，我们提出的EFL只有一个超参数s，这也是我们工作的优点之一。我们研究了不同值的s的影响，发现s=8达到最佳性能。如表所示。4、几乎所有的s0可以提高改进基线的性能。更重要的是这表明我们的EFL是超参数不敏感的。改进基线中组件的影响。我们研究了三个组成部分的影响，在我们提出的改进基线：稳定的设置，IoU✓27.5 +（1.8）20.226.1三十二点四表6.EFL结合其他一阶段目标检测器的结果FCOS测试表明报告的FCOS结果是用中心采样策略训练的[48]。基线†表示我们提出的改进基线。分支，并增加锚定规模。所有模型都是用我们提出的EFL训练的。如表所示。5、稳定的设置使训练过程稳定，并带来一定的性能提高（+0.3%AP）。结合稳定的情境，IoU分支和增加的锚量表分别使原始EFL提高了1.0%AP和0.7%AP。值得注意的是，与Tab. 1、即使没有稳定和改进的环境，我们的EFL仍然带来了显着的改善（从24.7%AP到25.8%AP，+1.1%AP）。并且与那些设置相结合，进一步增加了性能改进。如表1所示，我们的方法比改进的基线高出1.8% AP。二、结果表明，基线的提高对英语水平的提高是有利的，但不是必要的。同时，稳定的设置是检测器不可知的，可以很好地应用于其他单级探测器。实际上，所有RetinaNet和FCOS的实验都是用稳定的设置进行训练的，以避免NaN问题。4.4. 模型分析与其他单级检测器组合。为了证明EFL在不同一级检测器上的泛化能力，我们将其与RetinaNet，FCOS检测器，STS IB IA✓✓✓✓AP APrAPc25.8 18.1 24.5 30.626.1 18.6 24.8 30.8✓26.8 18.725.4✓26.5 20.0 24.8电话：021-88888888SAPAPRAPCAPf025.714.323.832.7126.316.324.632.6226.617.624.632.7427.319.925.532.6827.520.226.132.41226.519.924.631.66997方法APAP1 AP2 AP3 AP4 AP50.250.200.150.100.050.000 200 400 600 800 1000 1200分类索引表7.OpenImages Challenge 2019val split.图4. LVIS v1val split各分类阳性样本和阴性样本平均预测得分差异的比较PAA和我们改进的基线。如表所示。6、EFL与所有的单级检测器都有良好的性能与Tab. 1，我们提出的EFL保持了一个稳定的大性能增益（约+2%AP）超过原来的检测器。此外，EFL极大地提高了这些检测器在稀有类别上的性能，这显示了我们在解决长尾分布问题方面的更清晰的决策边界。我们调查是否EFL有一个更明显的决策边界上罕见的类别分类比焦点损失。由于外语学习主要关注稀有类别的正负失衡问题，因此这些类别的正样本和负样本之间的差距为了证实这一观点，我们采用阳性样本和阴性样本的平均预测得分来表示这一幅度。如图4所示，基线焦点丢失在罕见类别的阳性和阴性样本之间保持小的裕度相比之下，我们提出的EFL增加了所有类别的边际，特别是对于罕见的类别，从而产生更明显的决策边界。4.5. 打开图像检测为了验证对其他数据集的泛化能力，我们对具有挑战性的Open- Image数据集进行了一系列实验[20]。我们采用挑战2019分裂作为基准。Challenge 2019是Open- Images V5的一个子集，它包含500个类别，这些类别也存在长尾分布问题。训练分割中的1.7M图像用于训练，而41kval分割用于验证。值得注意的是，所有实验设置都与LVIS v1基准测试中搜索的设置一致，无需任何调整。为了更好地理解罕见类别的改进，请执行以下操作：基线†表示我们建议的改进基线。根据[39，40]的设置，Challenge 2019中的类别根据实例编号分为五组（每组100个类别）。我们采用广泛使用的mAP@IoU=0.5度量进行评估，并将上述五组的mAP指示为APl至AP 5。其中，AP1是具有最罕见类别的第一组的AP，而AP5是具有最频繁类别的最后一组的AP。所有模型都是通过随机采样器以120 k/160k/180 k的时间表进行训练的。如表所示。7，我们提出的改进基线大大提高了一级探测器的性能。与广泛使用的RetinaNet相比，它带来了11%的AP改善。结合改进的基线，我们提出的EFL使用ResNet-50主干实现了51.5%的总体AP，分别比两阶段基线Faster R-CNN和改进的基线高8.4% AP和8.2% AP。更重要的对于更大的ResNet-101主干，我们提出的方法仍然表现良好，并带来显着的AP增益。同时，它在稀有类别上保持了出色的表现。所有的实验结果表明，我们的方法的强度和泛化能力。5. 结论在这项工作中，我们研究如何建立一个高性能的单阶段目标检测器在长尾的情况下。我们确定类别间正负不平衡程度不一致是主要困难。提出了一种新的均衡化聚焦损失（EFL）算法，以保护单级检测器的学习不受极端不平衡问题的影响。我们提出的EFL是第一个解决方案的一阶段长尾目标检测。结合一些改进的技术和稳定的设置，一个强大的单级检测器与EFL击败所有现有的最先进的方法在具有挑战性的LVIS v1基准。FLEFLR-50 w/FPN更快的R-CNN[36]43.1 26.3 42.5 45.2 48.2 52.6RetinaNet [27]32.1 21.0 34.0 35.4 35.6 34.2[48]第四十八话43.3 19.4 44.3 49.5 50.6 52.2EFL（我们的）51.5 52.8 52.9 50.8 50.2 50.9保证金R-101 w/FPN更快的R-CNN[36]46.0 29.2 45.5 49.3 50.9 54.7RetinaNet [27]35.8 26.4 38.9 38.3 38.1 36.8[48]第四十八话44.7 19.6 46.6 51.1 52.3 53.4EFL（我们的）52.6 53.4 53.8 51.4 51.8 52.36998引用[1] Samuel Rota Bulo ， Gerhard Neuhold ， and PeterKontakheder.损失最大池的语义图像分割。在CVPR中，第7082-7091页。IEEE，2017年。2[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR中，第6154- 6162页，2018年。2[3] 陈凯，庞江淼，王佳琪，熊宇，李晓，孙树阳，冯万森，刘紫薇，石建平，欧阳万里，等.混合任务级联实例分割.在CVPR中，第4974-4983页，2019年。2[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR，第248-255页中。Ieee，2009年。5[5] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。在ICCV，第6569-6578页，2019年。2[6] Chengjian Feng，Yujie Zhong，and Weilin Huang.探索长尾目标检测中的分类平衡 arXiv 预印本 arXiv ：2108.07507，2021。第1、3条[7] Cheng-Yang Fu ， Wei Liu ， Ananth Ranga ， AmbrishTyagi，and Alexander C Berg. Dssd：解卷积单次激发探测器。arXiv预印本arXiv：1701.06659，2017。2[8] Zheng Ge，Songtao Liu，Zeming Li，Osamu Yoshie，and Jian Sun.Ota：用于对象检测的最优传输分配。在CVPR，第303-312页，2021年。2[9] 罗斯·格希克。快速R-CNN。在ICCV，第14402[10] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在CVPR中，第5802[11] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。Lvis：用于大词汇实例分割的数据集。在CVPR中，第5356-5364页一、二、三、五[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在ICCV，第2961-2969页，2017年。一、二、五[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。二、五[14] 杰虎，李申，孙刚。挤压-激发网络。在CVPR中，第7132-7141页，2018年。2[15] Xinting Hu，Yi Jiang，Kaihua Tang，Jingyuan Chen，Chunyan Miao，and Hanwang Zhang.学习如何分割尾巴。在CVPR中，第14045-14054页，2020年。3[16] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger. 密集连接的卷积网络。在CVPR中，第4700-4708页，2017年。2[17] Bingyi Kang，Saining Xie，Marcus Rohrbach，ZhichengYan，Albert Gordo，Jiashi Feng，and Yannis Kalantidis.用于长尾识别的解耦表示和分类器。arXiv预印本arXiv：1910.09217，2019。一、三、六[18] Kang Kim和Hee Seok Lee用于对象检测的具有IOU预测的概率锚点分配。见ECCV，第355-371页。Springer，2020年。二、五、七6999[19] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，25：1097-1105，2012. 2[20] Alina Kuznetsova，Hassan Rom，Neil Alldrin，JasperUi- jlings ， Ivan Krasin ， Jordi Pont-Tuset ， ShahabKamali ， Stefan Popov ， Matteo Malloci ， AlexanderKolesnikov ，et al. The open images dataset v4.IJCV ，128（7）：1956-1981，2020. 二、八[21] 黑律和贾登。Cornernet：将对象检测为成对的关键点。参见ECCV，第734-750页，2018年。2[22] Buyu Li，Yu Liu，and Xiaogang Wang.梯度协调单级检测器。在AAAI，第33卷，第8577二、三[23] 李翔、王文海、胡晓林、李俊、唐金辉、杨健。广义焦点损失v2：学习用于密集对象检测的可靠定位质量估计。在CVPR中，第11632-11641页，2021年。2[24] Xiang Li ， Wenhai Wang ， Lijun Wu ， Shuo Chen ，Xiaolin Hu，Jun Li，Jinhui Tang，and Jian Yang.广义焦点损失：学习用于密集对象检测的合格和分布式边界框arXiv预印本arXiv：2006.04388，2020。2[25] Yu Li ， Tao Wang ， Bingyi Kang ， Sheng Tang ，Chunfeng Wang，Jintao Li，and Ji

下载后可阅读完整内容，剩余1页未读，立即下载