自适应分层表示学习的长尾目标检测

3 浏览量更新于2023-10-26 收藏 834KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2313基于自适应分层表示学习的长尾目标检测李邦怀MEGVII技术libanghuai@gmail.com摘要一般对象检测器总是在手工设计的数据集上进行评估，例如，MS COCO和Pascal VOC，它们倾向于在不同的类上保持平衡的数据分布。然而，它违背了现实世界中的实际应用，遭受严重的类不平衡问题，称为长尾对象检测。在本文中，我们提出了一种新的方法，命名为自适应 HiaptiveR epresentationL earning（AHRL），从度量学习的角度来解决长尾对象检测。我们将每个学习的类表示在特征空间中可视化，并观察到一些类，特别是代表不足的稀缺类，由于缺乏区分性表示，很容易与类似的类聚类。受此启发，我们建议将整个特征空间分割成一个层次结构，并以由粗到细的方式消除问题。AHRL包含两个阶段的培训范式。首先，我们训练一个正常的基线模型，并在无监督聚类方法下构造层次结构然后，我们设计了一个AHR损失，包括两个优化目标。一方面，AHR损失保留了层次结构，并使表示聚类彼此远离另一方面，AHR损失采用自适应的边缘，根据特定的类对在同一集群中，进一步优化局部。我们在chal-challening LVIS数据集上进行了广泛的实验，AHRL优于所有现有的最先进的方法，基于ResNet-101的LVIS v0.5上有29.1%的分割AP和29.3%的框AP，LVIS v1.0上有27.6%的分割AP和28.7%我们希望我们简单而有效的方法将作为一个坚实的基线，以帮助刺激未来的研究在长尾对象检测。代码即将发布。1. 介绍卷积神经网络（CNN）的出现导致了对象检测的繁荣在努力的重新-302826242220图1.最先进的方法与我们的AHRL在LVIS v0.5上的比较[8]。我们在ResNet-50（红色）和ResNet-101（蓝色）主干上报告了不同的任务结果（对象检测和实例分割）。APs代表分段AP，而APb意味着盒子AP。我们提出的AHRL优于所有现有的方法。对于搜索者来说，目标检测的最新进展在手动平衡数据集（如Pas-calVOC [5]和MSCOCO [18]）中取得了令人鼓舞的结果。然而，在现实中，我们总是需要面对长尾分布式数据[25]，其中头类（具有大量实例的类）和尾/稀缺类（具有很少实例的类）在实例数量上显著不同然而，许多传统的检测模型很难同时兼顾头类和尾类，导致需要自适应解决方案。与长尾对象识别不同，附加的定位子任务使长尾对象检测更具挑战性。每个类的实例数量的极端不平衡仍然限制了它的性能。几乎所有关于长尾对象检测的过去工作[3，12，15，31，35，37]都达成了共识，即分类器是进一步改进的主要瓶颈。如图APs（R50）AP b（R50）AP s（R101）班级平衡损失（19）病灶丢失（17）EQL（20）LST（20）SimCal（20）RFS（19）DropLoss（21）Forest R-CNN（20）BAGS（20）ACSL（21）BALMS（20）我们2314常见罕见罕见常见常见f cr0.0535300.04250.03200.0215100.0150.00训练步骤0APsAPbAP AP AP(a) 权重方差(b) 类权重(c) 粗、细分级结果图2. (a)不同频率组的平均方差。(b)Mask R-CNN中分类器权重的t-SNE可视化。红色、绿色和蓝色点分别代表稀有类、常见类和频繁类的类权重/中心虚线椭圆标记了一些明显的集群。(c)粗分类和细分类的结果。蓝色条表示Mask R-CNN在LVIS v0.5上的标准结果，而橙色条表示忽略同一聚类中的错误分类的粗略结果。2a，我们在模型训练期间计算每个类别的分类权重的方差LVIS v0.5中的罕见、常见和频繁[8]。由于样本的多样性，头类在模型优化中占主导地位，而尾类由于严重的数据不平衡而很少处理因此，它总是导致不令人满意的性能。在长尾对象识别之后，长尾对象检测的早期尝试利用数据重新采样[3，8]和损失重新加权[7，14，23，29，31，35]策略来解决这个问题。通过对数据的重新采样，为模型提供了一个更加平衡的数据集，在一定程度上防止了对头类的偏见。与直接平衡数据集相比，损失重加权方法精心修改权重以适应长尾场景。然而，这些方法遭受过拟合有限的数据，和整体性能总是敏感的重加权或重采样超参数。在这项工作中，我们提出了一个简单而有效的方法，命名为适应性 HiaptiveR epresentationL earning（AHRL），从度量学习的角度来解决长尾对象检测问题。如图2b所示，我们将Mask R-CNN [10]作为一个示例模型，在LVIS v0.5 [8]数据集上进行训练，并利用t-SNE [33]来可视化每个类的权重。图2b中的每个点代表一个特定的类中心，为了更好地说明，我们从1230个类中选择了247个。此外，罕见、常见和频繁的类别分别用红色、绿色和蓝色标记（这些点的详细类别信息可以在我们的补充材料中找到）。我们可以发现一个有趣的现象，一些类，特别是代表不足的稀缺类，很容易与类似的，由于缺乏歧视性的表示聚类。因此，这些类往往被错误分类，并导致性能不佳。再进一步。我们采用K-Means将所有的类中心分成50个类，忽略同一类中的误分类，重新评估性能。如图2c所示，我们区分这种评估-分别将粗糙分类法和标准分类法作为粗分类结果和细分类结果进行了比较，发现粗分类结果明显优于细分类结果，特别是对于稀有类，这也验证了我们的假设这一阐述为优化长尾目标检测性能开辟了空间，并启发我们以从粗到精的方式处理这个棘手的问题。基于上述观察，我们采用了一种由粗到细的策略来解决这个问题，并设计了一个两阶段的训练过程AHRL从分层表示学习的角度。在第一阶段，我们遵循[8，10，31]中的标准设置来训练典型的基线模型，即，面罩R-CNN。然后，我们采用非监督聚类算法，即，K-Means，基于预训练模型的分类权重构建在第二阶段，我们提出了一个新的损失函数，命名为自适应HiapicalR representation loss（或AHRloss），以实现我们的粗到精设计。AHR损失涉及两个优化目标，一个用于粗粒度分类，另一个用于细粒度分类。一方面，AHR损失保留了构建的层次结构，并促使所有簇相互排斥。另一方面，AHR损失根据同一聚类中每个类对之间的特定关系采用动态和自适应的间隔，在整个训练过程中，它们越相似，它们之间的间隔越大，使不可区分的类别更具区分力。我们对LVIS数据集进行了广泛的实验，并使用ResNet-50 [11]和ResNet-101[11]主干实现了最新的最先进的结果，如图1所示。概括起来，本文的贡献主要有以下几点：• 我们深入研究了长尾对象检测问题，并提出了一个强大的基线，以帮助简化未来的研究，这已经击败了最先进的方法。罚款粗方差23152.01.81.61.41.20 20 40 60 80训练步骤（k）(a) 客观性评分0 20000 40000 60000 80000步骤(b) 每个实例的频繁共同(c) 类权罕见图3. (a)训练期间RPN中每个实例的平均客观性得分。所有盒子都通过IOU阈值进行过滤，并与相应的地面实况进行匹配，以获得它们的标签和频率。不同的频率组用不同的颜色标记。(b)每个实例的提案。我们在模型训练期间监控不同频率组的每个实例的平均建议。(c)不同类别的权重向量的大小。不同的背景颜色代表不同的频率组。在每个频率组中，权重的范数按降序排序。• 我们提出了一种简单有效的方法，命名为自适应分层表示学习（AHRL），从一个度量学习透视图以粗略到精细的方式消除长尾对象检测。提出了一种新的AHR损失，使AHRL更好地工作。• 与其他现有的国家的最先进的方法相比，我们提出的方法优于他们，并实现了一个新的国家的最先进的性能LVIS基准与各种骨干。2. 相关工作通用目标检测和实例分割。近年来，深度学习的兴起提高了对象检测的性能。这些基于深度学习的框架可以分为两类。单阶段方法[17，20，24]追求更快的推理速度，而两阶段框架[6，27]更喜欢更高的准确性。随着Mask R-CNN [10]的出现，对象检测和实例分割之间的差距通过在Faster R-CNN [27]上添加额外的分割分支而长尾识别常见的长尾识别方法可以总结如下。1)数据重新采样。对长尾分布的处理，最直观的方法是对尾样本[8，9]或头样本[4]进行重复采样[38]更进一步，随着时间的推移改变头部和尾部类的比例。但是所有这些方法都不可避免地会出现头类的欠拟合2)数据扩充。生成或合成新的样本总是用来扩大有限的数据集。最近的研究[1，2，19]设法为尾类创建假样本以解决长尾分布。然而，这些方法局限于尾类的多样性3）损失重新加权。直接修改损失函数也是解决这一问题的一种常用方法最近，一些作品[30，31，35]寻求许多方法来适应头部和尾部类的减肥，以防止对尾部类的严重长尾目标检测。随着长尾识别的成熟，长尾检测开始受到研究者的关注。与此同时，Facebook开始使用数据集LVIS [8]进行长尾检测挑战。 EQL损失[31]很容易减少对尾类的压制惩罚次数，从而克服了尾类的压制惩罚问题。在EQL之后，ACSL [35]防止尾类抑制头类，并保留相似类之间的区分。除了关注损失函数外，一些方法还故意设计分类器的最后一层。森林R-CNN [37]构建了一个具有不同先验知识的分类森林，以合并关系。 BAGS [15] 使用类似级联的softmax层来减轻头类和尾类之间的数量这些结构避免了在模型的特定部分中奖励和惩罚之间的不平衡此外，在长尾分类中提供的一些自适应方法[26，32]在长尾对象检测中仍然具有梦幻般的结果。在本文中，我们从度量学习的角度来解决长尾对象检测问题。AHRL通过将整个特征空间分解为层次结构，可以分而治之地处理这一难题，取得了较好的效果。应该注意的是，Forest R-CNN [37]采用了类似的分层分裂方法。然而，它通过添加单独的分类分支来区分父类来实现这一点，这导致父类和细粒度分类之间的严重不一致，因为这两个分支被投影到不同的特征空间。相反，我们提出的AHRL采用基于细粒度类的无监督聚类算法来构建层次结构，频繁常见罕见频繁共同罕见每个实例的对象性权范数2316我我∈我F{P P P}我∈我FWC同时构造和优化粗粒度类和3. 该方法在本节中，我们首先介绍了一个强基线模型，以帮助简化长尾对象检测的未来研究，并进一步验证我们提出的方法的有效性观察到头类的权重向量与尾类相比具有大得多的幅度，这导致对头类的预测偏好受[36]的启发，我们采用余弦相似性分类器来代替原来的线性分类器，以减少类内方差，定义如下：F（x）T·wc然后，我们讨论我们提出的方法AHRL，其次是AHR损失sc=λc·我F（x）（二）3.1. 初步和强基线在过去的工作中，朴素的Mask R-CNN [10]被作为基线模型来进行实验并验证他们提出的方法的优越性然而，随着现代深度学习方法的发展，一些直观和成熟的技术可以在一定程度上提高朴素基线性能。本节深入研究长尾对象检测问题，并基于朴素Mask R-CNN提出了一个强大的基线，为简单起见命名为baseline++。Baseline++作为基线模型，进一步验证了我们提出的方法的有效性。其细节描述如下。建议过采样。如图3a和图3b所示，我们在模型训练期间观察到尾类和头类之间在平均对象性得分上存在明显差距。尾类的建议往往会获得较低的对象分数，并在Mask R-CNN中的ROI头部之前被过滤掉。图3b可以很好地说明这种现象，尾类的每个实例的平均建议比头类小得多，这导致尾类的优化较少。根据这些发现，我们直接将非最大抑制（NMS）后允许保留的尾类提案的最大数量加倍，为尾类带来更多的前景提案余弦相似性分类器。一般来说，全连接（FC）层是大多数对象检测器中实现分类器的默认选择。然而，当涉及到长尾对象检测问题时，全连接层将导致明显的偏向头类。假设是特征提取器，WcRd×k为最终分类权重矩阵，k为整类的数目，并且W c=[w c，w c，...，w c]，其中（x）是给定建议的特征，wc是类别i的权重，λc是比例因子。此外，与全连接分类器中的权值相比，余弦分类器中的权值没有偏好和偏差，能更好地反映类间的关系，为后续获得优异的聚类结果奠定了基础.其他有效的尝试。根据我们在相关工作部分中的讨论，我们采用EQL [31]作为损失重新加权方法，并利用GIoU [28]代替默认的平滑L1损失，以实现更准确的边界框回归。此外，我们还尝试了几种简单的数据增强方法来增加数据的多样性。由于篇幅所限，有关这些尝试的详细说明，请参阅我们的附录3.2. 自适应分层表示学习基于第一节的研究结果，我们从度量学习的角度设计了一种简单而有效的方法，称为自适应的层次表征学习（AHRL）。AHRL管道的概述AHRL包含两个阶段的培训范式。在第一阶段，我们遵循[10]中的标准设置来训练一个正常的基线++模型，如第3.1节所示。然后，我们基于预训练基线++的分类节点构建分层特征空间。一个直观的方法来实现这一点是与现代聚类算法的帮助在本节中，不失一般性，我们只对这些分类节点进行一次聚类，并将整个分类特征空间划分为两个级别，以便更好地说明。假设我们最终得到n个聚类，例如，P=1，二、…n，并且聚类表示w p被定义为每个分类节点w c的均值，12ki j其中wcRd是相应的分类权重第i类的向量当给定输入样本向量时，x，我们可以通过点积得到原始分类得分sc集群P1：wp=j∈Pi J（三）操作：我sc=F（x）T·wc∥Pi∥其中，n Pin等于集合Pi中的节点数。我我=F（x）wccos（θ）（一）当涉及到聚类算法时，我们可以采取两种典型的选择。一是基于无监督我们可以发现，在所有条件相同的情况下，具有较大幅度的权重向量往往会产生较高的分数。如图3c所示，我们以Mask R-CNN [10]为例，聚类方法如K-Means来聚集相似的分类节点，这被认为在一定程度上利用了视觉信息另一种是基于词汇信息的-我2317LLF（x）·wLLLp预训练（初始类中心）聚类优化与AHR损失图4.我们的自适应分层表示学习概述。在第一阶段，我们训练一个简单的基线模型，第一个圆圈中的每个蓝点代表一个特定的类中心。接下来，聚类算法，即，K-Means被用来构建层次结构，每个聚类表示（第二个圆圈中的三角形）被定义为同一聚类中每个节点的平均值最后，我们对模型进行微调，并使用AHR损失对其进行优化。Mij是每个类对之间的自适应裕度。表1.我们建议的强基线中每个组件的消融。APr、APc和APf分别表示罕见、常见和频繁类别报告指出，报告的结果是基于我们自己的实施。EQL方法GIoU提案过采样数据增强余弦相似头APBAPsAPR APCAPfMaskR-CNN [8]’’’’23.624.214.024.228.3✓’’’’25.525.917.127.128.0基线++✓’’’25.826.217.827.128.5（我们的）✓✓’’26.126.417.727.628.4✓✓✓✓’26.526.717.828.028.6✓✓✓✓✓26.726.817.928.228.7信息，例如，WordNet [21]，以提供直观的层次结构。然而，词汇信息并不总是与视觉特征相一致。例如，seag-ull和plane在WordNet中是完全不同的类[21]，但从视觉角度看它们非常相似。我们在4.2节中对这两种方法进行了详细的比较。最后，在第二阶段，我们保持分层结构，并通过AHR损失以粗到细的方式消除长尾对象检测，这将在下一节中描述。损失的定义如下：其中λ是用于平衡粗糙。更具体地说，coarse作为粗粒度的分类损失，以清晰地区分每个聚类，我们采用简单的交叉熵损失来实现这一目标：Lcoarse=−pi logσ（sp）+（1−pi）log（1−σ（sp））（5）3.3. 自适应分层表示丢失一种自适应HHR损失控制器，其中：我我Tpsp=λp·i我（六）包含两个优化目标，粗和细。一方面，粗糙保留了层次结构，并促使所有簇相互排斥另一方面，在一项研究中，pi=F（x）. 1，x∈Pπi（七）我很好根据具体的需求，采用自适应余量。0，x∈/PπiMij我2318我在同一集群中的每个类对之间的关系，以进一步局部优化因此，AHR的总体表述其中，wp是聚类i的权重，其在等式1中定义。(3)，πi是对应于类别i的聚类指数，σ是2319LLL =−（ylogσ（s）+fineiadi、jL.LLLLLE（r）Tλ（fi）（1−yi）log（1−σad（sci、jλm max（0，（wc·（wc）T））iJSigmoid运算，λp是聚类预测的比例因子。粗糙仅集中于粗粒度聚类分类。因此，细是必要的进一步细粒度分类在单一的集群。值得一提的是，我们提出的Lfine采用自适应余量机制采用我们提出的基线++，它可以根据[31]和方程重新计算。（八）、ci，yi我Σ）））Lfine=−（yilogσad（sc）+（1−yi）log（1−σad（scRJ）））i、j（十三）i，yiIji、j（八）最后，第二阶段的总体目标函数如下，λ默认为1：其中：L=L+L+Lσ（sc）=1（九）RPNregAHR（十四）adi，j1 +e−（sc+Myi，j）=Lrpn+LGIoU+L细+λL粗其中yi是第i个建议的地面实况标签，sc是原始评分i、j第j类的建议i和M是一个矩阵，4. 实验确保每个类对之间的特定裕度值。本文采用类对之间的余弦相似度来反映类对之间的距离。正如我们在3.1节中所讨论的，我们提出的方法的分类器权重因此，M可以直接定义如下：4.1.实验装置数据集。大词汇实例分割（LVIS）数据集是长尾检测中的大型长尾词汇数据集，在v0.5中包含1230个类别，在v1.0中包含1203个类别由于LVIS是一个联邦数据集[8]，因此缺少一些注释，并且很少有注释是模糊的。所有类别正式分为三组：M=.0，i= j（十）频繁（超过100个图像），常见（10至100个图像），年龄）和罕见（少于10张图片）。继官方i j准则，我们在训练集上训练我们的模型并评估其中λm是控制互斥度的超参数，默认设置为2。此外，由于fine的目的是在单个集群中局部优化分类性能，因此M被限制为在同一集群中的那些类中起作用：在val set上的结果。除了在0.5至0.95的IoU阈值范围内广泛使用的AP之外，将分别针对对象检测和实例分割结果报告频繁（APf）、常见（APc）、罕见（APr）组的AP。实施详情。我们使用Mask R-CNN [10]作为我们的Ii，j =1，πi=πj0，π i=π j（十一）基本检测器和ResNet-50 [11]，以特征金字塔网络[16]为骨干。我们使用8个GPU，批量大小为16。我们的模型是用随机数训练的M=M·I（12）值得注意的是，M在模型训练期间动态计算因此，AHR，粗和细的组合，以粗到细的方式工作，以有效地解决长尾目标检测问题。此外，AHR易于扩展到Softmax版本，我们实现了为了简单起见，本文基于Sigmoid语言实现了LAHR3.4.培养目标在第一阶段，基础检测器使用标准掩码R-CNN[10]进行训练，即，一个典型的损失rpn，以提高前景建议的资格，一个EQL [31]损失和GIoU损失的框分类和框回归分别在ROI头。在第二阶段，L精细是使每个类更具区分性：2320对于90k步，具有动量0.9和权重衰减0.0001的tic梯度下降（SGD），初始学习率为0.02，其在60k和80k的重复率下衰减到0.002和0.0002我们采用了一个类特定的分支的掩码和边界框回归。预测分数的阈值被设置为0.05。我们遵循[36]，在实验中分别将λc和λp设置为20。我们将λ设为1，以平衡损失的规模。在[31]之后，λr被设置为为1. 76×10−34.2. 消融研究在本节中，我们将基于ResNet-50 [11]的Mask R-CNN [10]作为基线模型，以在LVIS v0.5 [8]上进行消融研究，除非另有说明。基线++中每个组件的消融。我们遵循[8，15，31，37]中的标准设置，并采用配备重复因子采样（RFS）方法的2321∗表2.与LVIS v0.5上最先进方法的性能比较[8]。为了公平比较，分别采用ResNet-50和ResNet-101作为主干。表明报告的结果是基于Pytorch [22]框架下的正式实现。方法会议骨干APBAPsAPRAPCAPf分类平衡损失[3]CVPR 2019ResNet-50-FPN21.020.98.221.225.7[17]第十七话ICCV 2017ResNet-50-FPN21.921.09.321.025.8EQL [31]CVPR 2020ResNet-50-FPN23.322.811.324.725.1RFS [8]CVPR 2019ResNet-50-FPN-24.414.524.328.4LST [13]CVPR 2020ResNet-50-FPN-23.0---SimCal [34]ECCV 2020年版ResNet-50-FPN-23.416.422.527.2[37]第三十七话ACMMM 2020ResNet-50-FPN25.925.618.326.427.6行李[15]CVPR 2020ResNet-50-FPN25.826.318.026.928.7[26]第二十六话NeurIPS 2020ResNet-50-FPN26.427.017.328.129.5[第12话]AAAI 2021ResNet-50-FPN25.125.513.227.927.3ACSL [35]CVPR 2021ResNet-50-FPN-26.418.626.429.4EQL [31]CVPR 2020ResNet-101-FPN25.224.814.626.726.4[37]第三十七话ACMMM 2020ResNet-101-FPN27.526.920.127.928.3[第12话]AAAI 2021ResNet-101-FPN26.826.914.829.728.3ACSL [35]CVPR 2021ResNet-101-FPN-27.519.327.630.7AHRL（我们的）N/AResNet-50-FPN27.427.317.529.029.1AHRL（我们的）N/AResNet-101-FPN29.329.121.330.730.3表3.各种聚类策略的比较。0.3%的分段AP和0.3%的箱AP收益，默认平滑L1损失在我们的设置。不同于常见数据采样方法[3，8]，我们提出的建议过采样稀有类可以消除类不平衡问题更本质上，它实现了0.2%的分段AP和0.3%的框AP的改善。众所周知，对稀缺类进行数据扩充以缓解类冲突几乎是常识。表4.我们提出的方法与基于各种主干的基线Mask R-CNN之间的比较方法骨干APBAPsAPRAPCAPfMask R-CNN [10]ResNet-50-FPN23.624.214.024.228.3AHRL（我们的）ResNet-50-FPN27.427.317.529.029.1Mask R-CNN [10]ResNet-101-FPN26.026.218.026.329.4AHRL（我们的）ResNet-101-FPN29.329.221.330.730.3作为我们的基准模型。在第3.1节中，我们提出了一个有效的强基线基线++，表1表明基线++的每个组成部分都可以有效地促进整体性能。一般的对象检测器在长尾对象检测问题中总是遭受严重的类别不平衡，EQL [31]通过忽略对尾部的抑制来消除这一点，当它们作为负样本时。最后，在我们的实现中，它可以实现大约 1.9% 的分割 AP 精度（AP）和2.0%的框AP增益。GIoU [28]是一种更先进的基于IoU的回归损失，ance. 在本文中，我们尝试了几种简单的数据增强方法，并发现随机裁剪和颜色抖动可以贡献的性能，分别达到0.3%的分段AP和0.4%的此外，我们将最终的全连接层替换为用于分类的余弦相似头，它实现了约0.2%的框AP和0.1%的分割增益，这与我们在第3.1节中关于权重向量总之，与[8]中的原始基线相比，我们提出的强基线实现了约2.8%的分割AP和2.2%我们提出的方法的有效性。我们采用两种典型的骨干，即，ResNet-50 [11]和ResNet-101 [11]，基于Mask-RCNN [10]实现AHRL，以验证我们方法的有效性。表4显示了详细的比较。我们可以发现，AHRL的性能大大优于基线模型，无论是基于ResNet-50还是ResNet-101。具体而言，AHRL实现了约3.1%的分割AP和3.8%的框AP增益，方法集群APBAPsAPRAPCAPfWordNet10826.726.916.728.329.2K-Means10826.927.016.928.628.9K-Means20027.427.317.529.029.1K-Means40027.126.816.128.529.32322表5.不同培训策略的比较。表6.与LVIS v1.0上最先进方法的性能比较[8]。方法骨干APbResNet-50，而ResNet-101也实现了约3.0%的分段AP和3.3%的框AP增益。实验证明，AHRL可以很好地与不同的主链一起工作，并取得了令人满意的结果.我们随机Mask R-CNN [10]EQL [31]行李[15]ResNet-101-FPNResNet-101-FPN21.7 20.824.2 22.926.5 25.8从LVIS v0.5中抽取几幅图像，直观地描绘我们的AHRL的效果，可视化结果可以在我们的附录中找到。不同的集群策略。聚类算法在我们提出的AHRL中起着重要的作用。在这一秒-在此基础上，我们对无监督K- Means和WordNet进行了广泛的实验如表3所示，我们遵循[37]中的WordNet设置，并将所有分类节点分为108个集群。我们可以发现，在相同的设置下，K-Means的整体性能略好于WordNet，这与我们在3.2节中的此外，AHRL达到最佳的结果时，我们把所有的类到200个集群。我们必须强调的是，我们并没有太多的关注微调集群超参数，否则我们相信AHRL可以实现进一步的改进。讨论我们的训练模式。正如我们在3.2节中所描述的，我们提出的AHRL涉及两个阶段的训练范式。为了消除增益是否由2倍训练时间带来的疑问，在第二阶段，我们遵循AHRL中的相同设置来微调预训练模型，而无需任何额外的修改，并且我们将表5中的结果标记为基线++†。我们观察到baseline++†与预训练模型的性能相当。2倍的训练时间会导致对头部类的预测偏差更差。值得注意的是，我们在两阶段训练范式之间严格共享相同的设置，例如，因此，我们将其归因于不同初始状态的影响。到目前为止，我们可以得出结论，AHRL带来的改进得益于我们的新设计，而不是训练时间。4.3. 与最先进方法的如表2和表6所示，我们将我们提出的方法与所有已发表的最新方法进行了比较。很明显，AHRL在LVISv0.5 [8]和LVIS v1.0 [8]数据集上都取得了卓越的性能并创造了新的最先进记录。此外，值得一提的是，我们提出的AHRL可以免费提高长尾对象检测性能，而无需任何额外的推理成本。由于篇幅所限，我们的供应材料中报告了每个子类别的LVIS v1.05. 结论在本文中，我们从度量学习的角度提出了一种新颖而有效的方法来解决长尾对象检测问题。我们提出的AHRL将整个分类特征空间分成一个层次结构，并以一种由粗到细的方式消除了这个棘手的问题。更具体地说，AHRL在第一阶段基于预训练模型的分类权重构建层次结构，然后AHR损失保持层次结构并促使所有聚类相互排斥。此外，根据类对之间的关系，设计了一种自适应的动态边界机制，使相似类具有更强的区分力。我们进行了大量的实验来验证我们所提出的方法的有效性，并且我们在基于各种骨干的具有挑战性的LVIS数据集上实现了一个新的最先进的结果。6. 广泛影响我们的贡献集中在长尾目标检测的层次表示学习，这可以扩展到其他计算机视觉任务。同时也为后续研究提供了新的思路。因此，它有可能推动物体探测器的有益和有害应用，如自动驾驶汽车，智能视频监控，机器人等。至于道德方面和未来的社会后果，这项技术可以为社会带来有害或有益的影响，这取决于具有邪恶或纯粹动机的公民，以及谁能很好地方法骨干APBAPsAPRAPCAPf基线++ResNet-50-FPN26.726.817.928.228.7基线++†ResNet-50-FPN26.827.015.429.029.2Mask R-CNN [10]ResNet-50-FPN20.019.2EQL [31]ResNet-50-FPN22.521.6行李[15]ResNet-50-FPN23.723.1[第12话]ResNet-50-FPN22.922.3AHRL（我们的）ResNet-50-FPN26.425.7AHRL（我们的） ResNet-101-FPN28.727.62323引用[1] 周新平，张世杰，潘家玉，魏伟，大程娟。Remix：重新平衡混音。arXiv预印本arXiv：2007.03943，2020。[2] Peng Chu，Xiao Bian，Shaopeng Liu，and Haibin Ling.长尾数据的特征空间扩充。欧洲计算机视觉会议（ECCV），2020年。[3] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie. 基于有效样本数的类平衡损耗。在IEEE/CVF计算机视觉和模式识别会议论文集，第9268-9277页[4] Chris Drummond，Robert C Holte，et al. C4. 5、类不平衡和成本敏感性：为什么欠采样胜过过采样。在从不平衡数据集学习的研讨会 II ，第 11 卷，第 1-8 页。Citeseer，2003.[5] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[6] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[7] 萨曼莎 · 格雷罗芭芭拉 · 卡普托和托马斯 · 门辛克Deepncm：Deep Nearest Class Mean Classifiers，2018。[8] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。Lvis：用于大词汇实例分割的数据集。在IEEE/CVF计算机视觉和模式识别会议的论文集中，第5356-5364页[9] Han Hui ， Wen-Yuan Wang ， and Bing-Huan Mao.Borderline-smote：一种新的不平衡数据集过采样学习方法。在智能计算国际会议上，第878-887页。Springer，2005年。[10] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[12] Ting-I Hsieh ，Esther Robb， Hwann-Tzong Chen， andJia-Bin Huang.用于长尾实例分割的Droploss2021年人工智能安全研讨会（SafeAI 2021）与第三十五届AAAI人工智能会议（AAAI 2021）共同举办，虚拟，2021年2月8日，2021年。[13] Xinting Hu，Yi Jiang，Kaihua Tang，Jingyuan Chen，Chunyan Miao，and Hanwang Zhang.学习如何分割尾巴。在IEEE/CVF计算机视觉和模式识别集，第14045[14] Bingyi Kang，Saining Xie，Marcus Rohrbach，ZhichengYan，Albert Gordo，Jiashi Feng，and Yannis Kalantidis.用于长尾识别的解耦表示和分类器。[15] Yu Li ， Tao Wang ， Bingyi Kang ， Sheng Tang ，Chunfeng Wang，Jintao Li，and Jiashi Feng.平衡分组克服分类器不平衡的长尾目标检测softmax.在IEEE/CVF计算机视觉和模式识别会议论文集，第10991- 11000页[16] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[17] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco：上下文中的公共对象。欧洲计算机视觉会议，第 740-755 页。Springer，2014.[19] Jiaun Liu，Yifan Sun，Chuchu Han，Zhaopeng Dou，and Wenhui Li.长尾数据的深度表示学习在IEEE/CVF计算机视觉和模式识别会议的论文集，第2970-2979页[20] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[21] George A.米勒 Wordnet：英语词汇数据库。Commun. ACM，38（11）：39 -41，Nov. 一九九五年[22] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al.Pytorch：一个操作风格的高性能深度学习库。arXiv预印本arXiv：1912.01703，2019。[23] S. Rebuffi ， A. 科列斯尼科夫湾 Sperl 和 C.H. 蓝伯特icarl：增量分类器和表示学习。在2017年IEEE计算机视觉和模式识别会议，第5533-5542页[24] Jo

下载后可阅读完整内容，剩余1页未读，立即下载