分类均衡：长尾目标检测中的分类精度提升方法

37 浏览量更新于2023-10-14 收藏 805KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3417是说Coco精度成骨作用CLAn分分类分类精度分类精度长尾目标检测中的分类均衡诚建丰智能化股份有限公司feng. intellif.com钟玉洁*美团网zhongyujie@meituan.com黄伟林淘科技、阿里巴巴集团weilin. alibaba-inc.com摘要当训练数据的分布严重偏斜时，传统的检测器容易产生不平衡分类，性能下降。在本文中，我们建议使用平均分类得分来表示在训练过程中每个类别的分类准确率。基于这个指标，我们平衡了类-1.00.80.60.40.20.01.00.80.60.40.20.00（50551）二百（1662）电话：400（305）800（33）1000（10）1200（1）排序的类别索引（来自此类别的实例数通过平衡损失（EBL）和记忆增强特征采样（MFS）方法来进行分类。具体而言，EBL增加了强度的弱类的决策边界的调整，由设计的分数引导的损失幅度之间的任何两个另一方面，MFS提高了调节的频率和精度1.00.80.60.40.20.0电话：+86-21 - 88888888传真：+86-21 - 88888888排序的类别索引（来自此类别的实例数1.00.80.60.40.20.0通过对弱类的实例特征进行过采样来估计弱类的决策边界因此，EBL和MFS合作寻找长尾检测中的分类平衡，并且在保持甚至改善头类性能的同时显著改善尾类的性能。我们使用Mask R-CNN在LVIS上进行实验，包括ResNet-50-FPN和ResNet-101-FPN，以显示所提出方法的优越性。它将尾类的检测性能提高了15. 6 AP，并比最新的长尾对象检测器高出1 AP以上。代码可在https://github.com/fcjian/LOCE上获得。1. 介绍对象检测在计算机视觉中起着重要的作用，并且最近的对象检测器[6，9，15，23]已经在具有几个类别和平衡类别分布的几个常见数据集上实现了有希望的性能，例如PAS-CAL VOC（20个类别）[5]和COCO（80个类别）[16]。然而，大多数真实世界的数据包含大量的类别，其分布是长尾的：少数头部类包含大量实例，而大量尾部类仅具有少数实例。*通讯作者。图1.使用ResNet-50-FPN的Mask R-CNN测试的LVIS v1.0训练集和COCO训练集上每个类别的平均分类得分和分类准确度的统计。X轴表示排序的类别索引和来自相应类别的实例的数量。最近，LVIS [7]被发布用于探索长尾对象检测。毫不奇怪，如果直接应用于此类数据集，则为平衡数据设计的最先进检测器的性能显著降低[13，27]。性能下降的原因主要来自两个方面：（1）数据的长尾分布。来自尾类的实例的数量（例如，一个类只有一个实例）不足以训练深度学习模型，导致这些类的拟合不足。此外，在训练期间尾类将被头类压倒，因为头类的实例的数量远大于尾类的数量（例如，成千上万次）。结果，检测器不能很好地学习尾部类，并且以非常低的置信度识别那些尾部类，如图1所示（2）种类多随着类别数的增加，错误分类的概率也随之增加，特别是对于分类得分很低的尾类。一些作品[7，19，22，25]试图通过重新采样训练来应对长尾学习的问题eLVIS分类阳离子准确度化分数平均类平均分类评分平均分类评分3418数据或重新加权损失函数。然而，他们中的大多数根据每个类别的采样频率分配采样率和损失权重，这是模型不可知的并且对超参数敏感[13，19]。可能会带来以下问题：（1）模型不可知数据重采样倾向于过拟合尾类并且欠表示头类;（2）基于数据集的损失重新加权可能导致过度的梯度和不稳定的训练，特别是当类别分布极不平衡时。最近，王等。[24]引入跷跷板损失，通过在训练期间动态累积类实例的数量来自适应地重新平衡正样本和负样本的梯度。然而，由于实例和类别的多样性和复杂性，训练样本的数量不能准确地反映类的学习质量，例如，训练具有视觉相似性的类别的分类器通常需要比具有非常不同的视觉外观的类别更多的为了解决上述问题，我们提出使用平均分类得分来监控学习状态（即，分类准确度）。如图1所示，平均分类得分与分类准确度近似正相关。因此，它可以作为一个有效的指标，以反映在训练过程中的分类精度。基于这个指标，我们设计了一个平衡损失（EBL）和记忆增强特征抽样（MFS）的方法，动态平衡的分类。平衡损失：为了平衡不同类别的分类，EBL基于统计平均分类得分来标记任何两个类别之间的不同损失裕度。它增加了弱（具有低平均分数）阳性类和占优势（具有高平均分数）阴性类之间的损失裕度，反之亦然。因此，所设计的损失裕度增加了针对弱类的分类决策边界的调整的强度，从而导致更平衡的分类。记忆增强特征采样：除了增加决策边界调整的强度外，我们设计了MFS来增加弱类决策边界调整的频率和准确性。具体地，首先基于由模型不可知的边界框生成器生成的一组密集边界框来提取丰富的实例特征，然后由特征存储器模块存储以用于跨训练迭代的最后，使用概率采样器访问特征存储器模块，以采样更多弱类的实例特征来改进训练。我们将所提出的方法命名为分类平衡长尾对象检测器（LOCE）。总之，我们的贡献如下：（1）我们建议使用平均分类得分来监测分类-训练过程中各类别的准确性;（2）提出了一种分数引导的均衡损失，提高了弱类决策边界调整的强度。(3)我们设计了一个记忆增强的特征采样，以提高弱类的决策边界调整的频率和准确性(4)我们使用MaskR-CNN [9]在LVIS [7]上进行实验，所述MaskR-CNN [9]具有各种主干，包括ResNet-50- FPN和ResNet-101-FPN [10，14]。大量的实验表明LOCE的优越性。它基于带有ResNet-50- FPN的Mask R-CNN将尾部类提高了15.6个AP [10，14]，并且在LVIS v1.0上比最新的长尾对象检测器的性能高出1个AP以上。2. 相关工作物体检测。现代目标检测框架[9，15，20，23，29]可以分为两阶段和一阶段。两阶段检测器首先生成一组区域建议，然后对建议进行分类和细化。相比之下，一级检测器直接预测每个位置处的类别和边界框。大多数检测器是为平衡数据设计的。当涉及到长尾数据时，这种检测器的性能大大降低。最近，广泛的研究试图通过设计平衡采样器[7，19，25，27]或平衡损失函数来优化两级检测器，如[9，20]以应对长尾数据。[13，19，22，24]。一些作品[13，25]采用解耦训练管道[11]，其首先学习具有不平衡数据的通用表示，然后使用重新平衡的数据或平衡的损失函数微调分类器。受其启发，我们提出了自适应特征采样和自适应损失函数的长尾检测。用于长尾学习的采样器。数据重采样是长尾学习的常见解决方案。它通常对尾类的训练数据进行过采样，而对头类的训练数据进行欠采样.在长尾检测中，数据采样器在图像级或实例级上平衡训练数据。Gupta等人[7]使用图像级重复因子采样（RFS），根据每个类别的采样频率对少数类别的数据进行上采样。Wang等人[25]提出一个基于类的采样器，通过只考虑所选类的建议来平衡来自实例级的数据。Wu等[27]为尾类设置更高的NMS阈值，以从尾类中采样更多的提议这些方法根据类别的频率分布设计相比之下，我们设计了一个记忆增强的特征采样的基础上的平均分类得分，它可以适应动态的训练过程。最近，任等。[19]引入Meta采样器，利用元学习估计最优采样率。与MetaSampler相比，我们的特征采样更简单，更通用。3419∈联系我们y’∈{1，2，…C+1} ey'微调常规培训和：区域提案特点和：内存功能分数均衡训练和：优化方向和强度，通过和：优化方向和强度and和图2.分类平衡决策边界调整的演示。为了简单起见，我们只演示头类和尾类之间的调整过程平均分类得分的相对大小可以近似反映类特征中心到决策边界的距离，即，sh和st。区域建议特征从RPN获得。存储器特征从特征存储器获得，所述特征存储器存储来自密集边界框的丰富实例特征。箭头的方向具体地，EBL（第3.2节）决定箭头的大小，而MFS（第3.3节）决定箭头的数量。随着来自尾类的更强和更多的调整，决策边界从尾类移动到头类，直到达到均衡。长尾学习的损失函数。平衡损失函数在长尾分类中受到了广泛的关注它们中的大多数是通过与训练数据的分布相关的损失权重或余量修改来实现的。例如，如[18，28]的作品通过每个类的采样频率的倒数来重新加权损失函数最近，一些作品试图设计平衡损失的长尾检测。Tan等人[22]提出均衡损失（EQL），通过忽略尾部类的抑制梯度来提高尾部类的性能。Li等[13]引入平衡组Softmax首先根据实例编号对类进行分组Ren等人[19]设计Balanced Softmax，以适应长尾数据的标签分布随类别样本数量的变化。Tan等人[22]通过独立且平等地重新平衡每个类别的正梯度和负梯度来改善EQLWang等人[24]开发跷跷板损失，通过累积训练样本的数量来重新平衡正样本和负样本的成分与现有方法不同的是，我们根据训练过程中计算的平均分类得分来设计损失函数它可以动态地跟踪和调整模型的学习状态。3. 方法来缓解这个问题。我们首先使用平均分类分数来指示学习状态（即，分类准确度）（第3.1节）。然后，基于该指标，我们通过分数引导的平衡损失（第3.2节）和记忆增强特征采样方法（第3.3节）来平衡分类。所提出的损失函数和特征采样方法协同调整分类决策边界，如图2所示与大多数用于长尾对象分类或检测的方法[11，13，25]类似这两种方法在微调阶段被采用。3.1. 平均分类评分我们首先分析的分类问题时，采用传统的检测器的长尾数据，然后introduce的平均分类得分，以指示检测器的学习状态问题表述。针对平衡数据设计的传统检测器大多采用softmax交叉熵损失函数和随机图像采样器进行优化。例如，令F表示将图像X作为输入并生成类别预测z=F（X）的评分器，其中zRC+1（C个对象类加上背景类）。在训练期间，利用对应的地面真值标签y1，2，…C+1，标准softmax交叉熵可以写为：L（z，y）=−logΣezyz=log[1+Σezy'y’/=y-zy]。（一）由传统检测器获得的分数对于每个类别是极不平衡的。在这项工作中，我们提出了LOCE，一个具有分类平衡的对象检测器利用随机图像采样器，在训练期间以相等的概率选择每个图像x考虑到分布P（y）高度偏斜的长尾学习，头部类ShSt尾级头部类ShSt尾级头部类Sh移动St尾级如第1节所述，如果训练数据的分布严重偏斜，则平均分类3420∈yΣ来自尾类的图像具有非常低的出现概率。在softmax交叉熵和随机图像采样器的优化下，分类器倾向于预测不平衡的分类分数，导致尾部类的大量误分类，如图1所示。分类精度指示器。为了缓解分类不平衡的问题，我们试图找到一个有效的指标来反映学习状态（即，分类精度），并动态地调整学习过程。以前的工作[1，7，17，22，27]提出了基于每个类别的训练样本的数量来平衡分类。然而，由于实例和类别的多样性和复杂性，训练样本的数量不能准确地反映模型的学习质量。例如，训练具有高类间视觉相似性的类别的分类器通常需要比具有非常不同的视觉外观的类别更多的训练样本。相反，我们寻求一个更有效的指标来反映分类状态。从图1所示的统计数据中，我们发现平均分类得分与分类性能近似正相关即，对于LVIS，头部类具有较高的平均分类得分和较高的分类准确度，而尾部类具有较低的平均分类得分和较低的分类准确度。对于平衡数据集COCO，我们也观察到类似的模式：高平均分类分数通常与高分类准确性相关因此，我们建议使用平均分类得分来指示模型对每个类别的学习状态。然而，在每次训练迭代时计算整个数据集的平均分类得分是不可行的。相反，我们在训练期间通过平均得分向量sRC+1来近似平均分类得分。对于在第i次迭代时具有正标签y的实例，我们使用实例更新平均得分向量中的对应si3.2. 均衡损耗在本节中，我们引入了平衡损失（EBL），通过移动分类器的决策边界来平衡分类。最近，一些工作，如[1，22，24]也试图调整决策边界，以平衡分类，基于先验分布P（y）或每个类别的训练样本的累积数量。然而，如3.1节所述，训练样本的数量不能准确地指示模型的与现有方法不同的是，EBL根据平均分类得分调整决策边界。具体地说，如果一个类别（例如，尾类）具有低分类得分，我们期望EBL将决策边界从该类别推向其它类别（例如，头类）。该行为进而改善了当前类别的平均分类得分，从而导致更平衡的分类。为了实现这一点，我们将分数相关的向量mar_ inδyy’添加到softmax交叉熵损失中，从而转化为EBL，如下所示：L（z，y）=log[1+ezy'-zy+δyy']，（3）y’/=y其中，基于平均分类得分的分布，δyy’用作任何两个类别之间的可调平衡矩阵为了相应地调整决策边界，δyy’的设计应满足以下两个性质：（1）它应减少对主导类的抑制（即，具有高平均分类得分）而不是弱类（即，具有低的平均分类得分），这可以通过减小显性阳性类别和弱阴性类别之间的界限来实现;（2）扩大弱类对优势类的抑制，这可以通过增加弱正类与优势负类之间的距离来实现。因此，我们在任意两个类别之间设计以下自适应损耗裕度：sy'概率移动平均函数：si=αsi−1+（1−α）pi，（2）0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000yS3421y）的。（四）y y y其中pi是实例的预测概率，α是平滑系数超参数。与使用训练实例的数量来指示每个类别的模型的学习状态的现有作品[19，24]相比，所提出的指标具有以下优点：（1）它可以在训练期间监视每个类别的分类精度;（2）它可以在训练数据的分布不可见或者模型是用其它数据集预先训练的时候应用，例如，从在线流中获得训练样本。平均分类得分通过指导所提出的损失函数和特征采样方法来平衡分类器来影响训练，这在下面进行介绍背景课。如上所述，背景被认为是分类器中的辅助类别。在实验中，我们发现用EBL训练的分类器倾向于预测假阳性结果，即，把背景误认为为了减少假阳性的发生，我们加大了相应的处罚力度。在余量损失中，可以通过增加正背景类和负前景类之间的余量来实现。因此，当计算等式（1）时，我们降低了背景类的平均分类得分C+1（四）、值得注意的是，用于分类器的大多数训练样本（至少75%）是负样本（即，背景）。为了简单和高效，我们使用小值（例如，0.01）34224-∈--和：包含头类和尾类的图像和：头类和尾类的地面实况盒记忆增强特征抽样以及：来自RPN的边界框和模型不可知的边界框生成器。骨干ROIAlign基于数据集图像采样RPN掩模框分类基于类的提案抽样随机建议抽样(a) （b）拟议的方法图3.现有的平衡抽样方法和所提出的记忆增强特征抽样方法之间的比较。(a)基于数据集的图像采样（例如，RFS [7]和CBS[25]）对来自尾类的图像进行过采样或对来自头类的图像进行欠采样基于类的建议抽样（例如，NMS重采样[27]和双水平采样[25]）从尾部类或所选类中采样更多建议(b)：记忆增强特征采样通过特征记忆模块存储来自模型不可知的密集边界框的实例特征，并且基于平均分类得分对记忆特征进行采样替换sC+1，即sC+1。一些工作，如[24]，试图通过引入额外的对象分支来减少假阳性情况。相比之下，该方法更简单，更有效。3.3. 记忆增强特征采样虽然EBL倾向于将决策边界从尾类移动到主导类，但决策边界有时仍然更接近尾类。这是因为EBL仅调整决策边界的调整的强度，而在训练期间，由于头部类中的图像的压倒性数量，调整的频率特别地，尾类通常具有非常少的训练样本（例如， 0.5）。基于密集边界boxesb，我们通过将RoI-Align [9]应用于来自特征金字塔网络（FPN）的特征来提取相应的实例特征fy特征存储器平均得分向量0.2 0.8 0.1骨干f1：f3更新随机图像采样RPN盒基因评分ROIAlignM1：M2：M3掩模框分类概率采样器3423·×个yyyyS功能存储器模块。图像重采样通常需要额外的训练迭代，而建议采样不能提供足够的样本来平衡分类，特别是对于尾部类。相比之下，所提出的边界框生成器可以产生密集的边界框，用于提取更多的实例特征，而不需要额外的训练迭代。然而，使用来自密集边界框的所有实例特征来在迭代内训练分类器会带来大量的计算开销和内存消耗，特别是当图像中存在大量实例时。此外，对于在训练时期中仅出现几次的尾类，在迭代内获取所有实例特征可能仍然是不足够的。为了缓解上述问题，我们使用特征存储器模块来存储实例特征，并在后续训练期间根据需要重用实例特征。基本原理是主链的参数（例如，ResNet-50-FPN）在微调阶段期间被冻结。因此，从主干提取的特征是稳定的，并且可以在不同的训练迭代期间被重用以微调分类器记忆模块在对比学习中被广泛采用[3，8，12，26]，但从未用于长尾对象检测。具体地，特征存储器模块用每个类y的类队列来维护和更新：My=[f1，f2，…（6）其中fi是存储器模块M y中的类别y的第i个RoI特征，并且M是存储器大小。在每次迭代时，我们将当前小批量的实例特征入队到对应的类队列中，并相应地将最早的小批量的实例特征出队。大多数两阶段检测器（诸如Mask R-CNN）在预测层之前共享用于分类和盒回归的全连接（FC）层。我们还存储了对应于fi的回归目标ti来训练box分支，它其中f（）是非递增变换，并且是类别y的采样概率。为简单起见，我们定义：1f（s y）=.（八）y最后，我们根据p随机选择k个类，并从特征存储器中为每个选定的类选择m个特征然后，k m个选择的特征将被用来与来自RPN的RoI特征一起训练分类器。4. 实验4.1. 实验装置数据集和评估指标。我们在最近的长尾和大规模数据集LVIS上进行实验[7]。最新版本v1.0包含1203个类别，同时包含边界框和实例遮罩注释。我们使用训练集（10万张图像，130万个实例）进行训练，使用val集（19.8k张图像）进行验证。我们还进行了实验LVISv0.5，其中包含1230和830类别分别在其训练集和val集。基于每个类别出现在训练集中的图像的数量，所有类别被分成三组：罕见（1-10个图像）、常见（11-100个图像）和频繁（>100个图像）。除了官方度量平均精度（AP ）之外，我们还报告 APr（针对罕见类）、APc（针对常见类）和APf（针对频繁类）以测量检测性能和分割性能。除非具体说明，否则APb表示检测性能，而AP表示分段性能。实作详细数据。我们使用MMDetection [2]实现了我们的方法，并使用Mask R-CNN [9]进行实验，其中包括在 ImageNet [4]上预训练的 ResNet-50-FPN 和 ResNet-101-FPN [10，14]在[19]之后，我们使用解耦的训练管道。也就是说，我们首先用标准softmax交叉熵和随机图像采样器训练模型24个时期，y y可以以可忽略的开销提高尾类的盒回归的准确性。概率采样器。在每次训练迭代中，我们通过采样器访问特征记忆模块以增加训练特征以平衡分类器。特别地，我们使用平均分类得分来自适应地调整采样过程，类似于EBL。为了提高弱类（例如，尾类），我们对这些类的更多存储器特征进行具体来说，我们设计了一个概率采样器，它根据与平均分类得分负相关的概率p对记忆特征进行采样，即：然后用所提出的方法对模型进行6个时期的微调。具体地，初始学习率为0.02并且在第一训练阶段的第16和第22个时期以及在微调阶段的第3和第5个时期下降了10倍模型使用SGD op-具有0.9动量和0.0001权重衰减的定时器，在8个GPU上的批量大小为16。按照惯例，我们用尺度抖动（640-800）和水平翻转来训练检测器。在测试时，在没有测试时间增强的情况下评估模型，并且每个图像的最大检测次数为300，最小得分阈值为0.0001。我们将α设置为0.9以更新平均分类得分。被取代的S（C+1被设置为0.01。存储器大小M是80，并且特征采样器中的k和m在每个GPU上是8和4。在[24]中，我们采用归一化线性ac-f（sy）（七）对掩模预测的激励。更多实施和py=你们、f（sy'）培训详情参见补充材料。Σ3424平均cl分类阳离子准确度l集合eLVIS阀分类分数平均cl分类阳离子准确度l集合eLVIS阀分类分数分类精度分类精度分类精度指标EBL APbAP AP AP AP1.21.2rcf20.4 20.2 2.9 18.2 30.1C24.0 23.8 8.3 23.7 30.7C26.0 25.7 18.4 25.0 29.8C C27.4 26.618.526.2 30.7P（y）C C23.4 23.120.8 23.1 24.11.00.80.60.40.20.00（50551）二百（1662）400（305）600（95）800（33）10001.00.80.60.40.20.01200（1）表1.每个拟议组成部分的效力s表示平均分类得分，P（y）表示类别分布排序的类别索引（来自此类别的实例数(a) Softmax交叉熵损失+随机图像采样。的数据集。αAPbAP AP AP1.21.01.21.0rcf2019 - 04 - 26 10：00：002019 -04 - 26 18：00：000.95 27.3 26.6 18.126.430.7表2.α的不同平滑系数的分析。sC+1APbAPAPrAPcAPf0.1 26.7 26.0 17.8 25.530.32019 - 01 -26 18：00：002019 - 01 - 26 18：00：00表3.平衡损失中s（C+1）的不同取值分析k mAPb AP APrAPcAPf0.80.60.40.20.01.21.00.80.60.40.20.80.60.40.20.00（50551）二百（1662）电话：400（305）800（33）1000（10）1200（1）排序的类别索引（来自此类别的实例数(b) Softmax交叉熵损失+RFS。1.21.00.80.60.40.22019 - 01 - 26 10：00：000.00（50551）二百（1662）400（305）600（95）800（33）10000.01200（1）4 4 27.2 26.5 18.3 26.1 30.6排序的类别索引（来自此类别的实例数表4.采样器中k和m的不同设置分析4.2. 消融研究我们使用具有主干ResNet-50-FPN的Mask R-CNN进行消融研究，并在LVIS v1.0上报告结果。成分分析表1报告了每个提议的分量的检测和分割结果。为了公平比较，我们使用标准softmax交叉熵和随机图像采样器训练基线30个epochs。首先，我们评估EBL的性能。与基线相比，EBL使APb具体地说，它提高了所有组的类的性能，即，对于稀有类，分别为+5.4AP，对于常见类，为+5.5AP，对于频繁类，为+0.6AP。这些结果表明，分数引导的损失余量也可以帮助优化头类的决策边界，即使它主要是针对弱类设计的。然后，我们研究MFS的有效性。与基线相比，MFS的性能提高了5.6AP用于对象检测，5.3AP用于例如分割。更具体地说，大多数改进来自稀有类和常见类，对于实例分割，它们产生+15.5AP和+6.8AP改进。我们可以看到，使用更多的实例特征从弱从训练集获得的分类索引。类可以带来很大的改进，特别是对于稀有类。接下来，我们验证了完整方法的有效性（即，LOCE）。EBL和MFS协同工作，与基线相比，将AP提高了7.0AP用于对象检测，将6.4 AP用于实例分割。值得注意的是，MFS本身在频繁类上的性能比基线低一点，而LOCE在频繁类上的性能更高。这表明EBL有助于MFS为频繁类找到更好的平衡点。因此，LOCE极大地提高了尾类的性能，同时保持甚至提高了头类的性能。最后，我们评估使用数据集的先验分布（即，P（y））来指导EBL和MFS平衡分类。具体地，我们使用训练集中每个类别的实例的数量来代替LOCE中的平均分类得分，其结果如表1（最后一行）所示我们可以看到，数据集引导的LOCE实现了比分数引导的LOCE更低的性能（例如，23.4 AP与27.4用于对象检测的AP）。具体地，数据集引导的LOCE对于稀有类获得更高的AP，但它极大地损害了常见类的性能。这些结果表明，数据集引导平均cl分类阳离子准确度l集合eLVIS阀分类分数平均分类评分平均分类评分平均分类评分4827.326.618.526.330.6(c)LOCE（EBL + MFS）。8427.426.618.526.230.7图4.分类均衡分析8827.226.517.526.330.7LVIS v1.0 val set上的训练方法。 x轴表示3425方法框架骨干数据集APBAPAPRAPCAPfRFS [7]26.125.917.826.228.8EQL [22]24.125.214.624.426.8[27]第二十七话Mask R-CNN R-50-FPNLVISv0.525.9 25.6 18.3 26.4袋[13] 25.8 26.3 18.0 26.9 28.7香脂[19] 27.6 27.0 19.6 28.9 27.5EQL v2 [21]†27.0 27.1 18.6 27.6 29.9LOCE（我方）28.2 28.4 22.0 29.0 30.2RFS [7] 24.7 23.7 13.5 22.8 29.3EQL [22] 22.5 21.6 21.7 29.2[24]第二十四话Mask R-CNN R-50-FPNLVISv1.024.3 23.3 13.0 22.9 28.2EQL v2 [21]†26.1 25.5 17.7 24.3 30.2LOCE（我方）27.4 26.6 18.5 26.2 30.7RFS [7] 26.6 25.5 16.6 24.5 30.6EQL [22] 24.0 22.7 3.7 23.3 30.4购物车[13]Mask R-CNN R-101-FPNLVISv1.026.4 25.6 17.3 25.0 30.1表5.与LVIS v0.5和v1.0的最新技术水平进行比较*表示一次培训时间表。†表示并行工作。方法表示头类不足，如第1节所述。相比之下，所提出的分数引导的方法可以自适应地调整损失余量和采样率为每个类的学习状态，提高性能的类从所有组。超参数。我们比较了使用不同平滑系数α更新平均分类得分的性能。从表2中所示的实验结果，我们观察到性能对α的值不敏感，并且α=0。9产生最佳性能。表3中显示了具有不同s（C+1）的性能。我们可以看到，当sC+1=0时，检测器达到最佳性能。01. 然后，我们进行了几次实验，以研究表4中的特征采样器相对于k和m通过粗略搜索，对于其余的实验，我们设置k=8和m=4分类均衡分析。在这里，我们分析了平均分类得分和分类精度的不同方法之间的LVIS价值集。如图4所示，由使用softmax交叉熵损失和随机图像采样训练的检测器预测的平均分类分数的分布严重偏斜。具体而言，尾类的平均分类得分接近0，其分类准确率也接近0。当使用RFS代替随机图像采样来训练检测器时，平均分类得分和分类精度都略有提高。相比之下，LOCE方法预测的平均分类得分比上述两种方法预测的平均分类得分更均衡，并且提高了普通类和尾类的分类准确率。4.3. 与最新技术水平的我们在表5中比较了LOCE与LVIS v0.5和LVIS v1.0的最新方法。在LVIS v0.5上，所提出的方法实现了28.2 AP的检测性能和28.4 AP的分割性能，超过了最近的长尾对象检测器，例如BAGS [13]（通过2.4 AP和2.1AP）和BALMS [19]（通过2.4AP和0.6 AP和1.4AP）。具体而言，它的表现优于BAGS4.0分，这表明所提出的方法对尾部类的优越与文献[7，13，19，22，27]等大多数方法相比，所提出的方法除了改善尾类的检测性能之外，还在头类上获得了高得多的性能。在LVIS v1.0上，所提出的方法比表5中所示的所有方法都获得了更好的结果，包括诸如跷跷板损失[24]和EQL v2 [21]等并发工作。在Mask R-CNN [9]的框架下，LOCE实现了在R-50-FPN和R-101-FPN上的27.4 AP和29.0 AP，超过最近的工作，如BAGS [13]，Seesaw Loss[24]和EQL v2[21]超过1个AP。5. 结论在本文中，我们探讨了分类平衡在长尾目标检测。我们建议使用平均分类得分来表示每个类别的模型的学习状态，并设计一个平衡损失和记忆增强的特征采样方法来平衡分类。大量的实验表明，该方法的优越性，它设置了一个新的国家的最先进的长尾目标检测。跷跷板损失[24]†27.427.118.726.331.7EQL v2 [21]†27.927.220.625.931.4LOCE（我们的）29.028.019.527.832.03426引用[1] Kaidi Cao，Colin Wei，Adrien Gaidon，Nikos Arechiga，and Tengyu Ma.使用标签分布感知的边际损失学习不平衡数据集。arXiv预印本arXiv：1906.07413，2019。[2] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu，et al.检测：打开mmlab检测工具箱和基准。arXiv预印本arXiv：1906.07155，2019。[3] Xinlei Chen，Haoqi Fan，Ross Girshick，and Kaiming He.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第248[5] Mark Everingham，Luc Van Gool，Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。International Journal ofComputer Vision，88（2）：303[6] Chengjian Feng，Yujie Zhong，Yu Gao，Matthew R.Scott和Weilin Huang。Tood：任务对齐的一阶段对象检测。arXiv预印本arXiv：2108.07755，2021。[7] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。Lvis：用于大词汇实例分割的数据集。在IEEE计算机视觉和模式识别会议上，第5356-5364页，2019年[8] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE计算机视觉和模式识别会议论文集，第9729- 9738页[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页[11] Bingyi Kang，Saining Xie，Marcus Rohrbach，ZhichengYan，Albert Gordo，Jiashi Feng，and Yannis Kalantidis.用于长尾识别的解耦表示和分类器。arXiv预印本arXiv：1910.09217，2019。[12] Suichan Li，Dapeng Chen，Bin Liu，Nenghai Yu，andRui Zhao.用于视觉识别的基于记忆的邻域嵌入。在IEEE计算机视觉国际会议论文集，第6102-6111页[13] Yu Li，Tao Wang，Bingyi Kang，Sheng Tang，ChunfengWang，Jintao Li，and Jiashi Feng.用平衡组softmax克服分类器在IEEE计算机视觉和模式识别会议论文集，第10991-11000页，2020年。[14] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在Proceedings of the IEEE计算机视觉和模式识别会议，第2117-2125页，2017年。[15] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980

下载后可阅读完整内容，剩余1页未读，立即下载