LibraR-CNN：目标检测的平衡学习

176 浏览量更新于2023-10-19 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

821Libra R-CNN：目标检测的平衡学习庞江淼<$陈凯<$<$建平冯华君<$万莉欧阳g林大华<香港中文大学香港中文大学感知时间研究--悉尼大学pjm@zju.edu.cnck015@ie.cuhk.edu.hkshijianping@sensetime.comfenghj@zju.edu.cnsydney.edu.audhlin@ie.cuhk.edu.hk摘要与模型体系结构相比，cess对探测器的成功也至关重要，在目标检测中受到的关注相对较少。在这项工作中，我们仔细回顾了检测器的标准训练实践，发现检测性能往往受到训练过程中的不平衡性的限制，这通常包括三个层次为了减轻由此造成的不利影响，我们提出了Libra R-CNN，这是一个简单但有效的框架，可以实现对象检测的平衡学习它集成了三个新的组件：IoU平衡采样，平衡特征金字塔和平衡L1损失，分别用于减少样本，特征和目标级别的不平衡。受益于整体平衡的设计，Libra R-CNN显著提高了检测性能。在没有额外功能的情况下，它在MSCOCO上的平均精度（AP）分别比FPN FasterR-CNN和RetinaNet高出 2.5个 11. 介绍随着深度卷积网络的进步，近年来在对象检测方面取得了显着进展已经开发了许多检测框架，如FasterR-CNN [28]，RetinaNet [20]和Cascaded R-CNN [3]，这些框架大大推动了现有技术的发展。尽管在流水线体系结构上有明显的差异，单阶段vs.两阶段的现代检测框架大多遵循共同的训练范例，即，对区域进行采样，从中提取特征，然后在标准多任务目标函数的指导下联合识别类别并细化位置。1 代码可在 https://github.com/OceanPang/ Libra_R-CNN上获得。图1：不平衡包括（a）样本级（b）特征级和（c）目标级，这会阻止设计良好的模型架构得到充分利用。基于这种模式，目标检测器培训的成功取决于三个关键方面：（1）选择的区域样本是否具有代表性，（2）提取的视觉特征是否被充分利用，以及（3）设计的目标函数是否是最优的。然而，我们的研究表明，典型的培训过程是显着不平衡的，在所有这些方面。这种不平衡问题阻碍了设计良好的模型架构的能力得到充分利用，从而限制了整体性能，（c）损失∑L（）��L��i ∈不平衡李箱头时代（b）第（1）款高水平检测✓平衡检测✓低电平检测✗（a）人数随机抽样不平衡区域轻松硬822如图1所示。下面，我们依次描述这些问题1) 样本水平不平衡：当训练对象检测器时，硬样本特别有价值，因为它们更有效地提高检测性能。然而，随机抽样方案往往导致所选样本以易选样本为主.推广的硬岩采矿方法，如。OHEM [29]可以帮助将焦点转向硬样品。然而，它们通常对噪声标签敏感，并且产生相当大的算法和计算成本。焦点损失[20]也在单阶段检测器中解决了这个问题，但是当扩展到R-CNN时发现几乎没有因此，这个问题需要更优雅地解决。2) 功能级别不平衡：主干中的深层高级特征具有更多的语义意义，而浅层低级特征更具内容描述性[35]。最近，通过FPN [19]和PANet [22]中的横向连接进行的特征集成推进了对象检测的发展。这些方法给我们的启示是，对于目标检测来说，低层信息和高层信息是互补的如何利用它们来整合金字塔表示的方法决定了检测性能。但是，将它们结合在一起的最佳方法是什么？我们的研究表明，集成功能应该拥有平衡的信息，从每个分辨率。但上述方法中的顺序方式会使综合特征更多地关注相邻分辨率而较少关注其他分辨率。在信息流动过程中，每融合一次，非相邻层次中包含的语义信息将被3) 客观水平不平衡：一个探测器需要完成两个任务，即.分类和定位。因此，在培训目标中纳入了两个不同的目标。如果它们没有得到适当的平衡，可能会牺牲一个目标，导致整体性能次优[16]。在训练过程中，所涉及的样本的情况是相同的如果它们没有得到适当的平衡，容易的样品产生的小梯度可能会淹没在硬样品产生的大梯度中，从而限制进一步的细化。因此，我们需要重新平衡所涉及的任务和样本，以实现最佳收敛。为了减轻这些问题造成的不利影响，我们提出了Libra R-CNN，这是一种简单但有效的对象检测框架，可以明确地在上述所有三个级别上实现平衡。该框架整合了三个新的组成部分：（1）IoU平衡采样，根据具有指定地面实况的IoU挖掘硬样本。(2)平衡的特征金字塔，它使用相同的深度集成的平衡语义特征来增强多层次特征。(3)平衡L1损失，促进关键梯度，以重新平衡包括分类、全面定位和精确定位。在没有花里胡哨的情况下， Libra R-CNN 在 MSCOCO上的平均精度（AP）分别比FPN Faster R-CNN和RetinaNet高出2.5点和2.0点[21]。使用[9]中的1×时间表，Libra R-CNN可以使用FPN Faster R-CNN获得38.7和43.0 AP，基于ResNet-50和ResNeXt-101- 64 x4 d。在这里，我们总结了我们的主要贡献：（1）系统地回顾了检测器的训练过程。我们的研究揭示了三个层次的不平衡问题，限制了检测性能。(2)我们提出了Libra R-CNN，这是一个通过结合三个新组件来重新平衡训练过程的框架：IoU平衡采样、平衡特征金字塔和平衡L1损失。（3）我们在MS COCO上测试了所提出的框架，与最先进的检测器（包括单级和两级检测器）相比，一致地获得了显著的改进2. 相关工作对象检测的模型架构。近年来，两级和单级检测器都在普及目标检测两阶段检测器首先由R-CNN引入[8]。逐步衍生的SPP [11]，Fast R-CNN [7]和Faster R-CNN[28]进一步促进了发展。Faster R-CNN提出了区域预处理网络，以提高检测器的效率，并允许检测器进行端到端的训练。在这个意义重大的里程碑之后，人们从不同的角度引入了许多方法来增强Faster R-CNN。例如， FPN [19] 通过金字塔预测解决了尺度方差。Cascade R-CNN [3]通过经典而强大的级联架构将FasterR-CNN扩展为多级检测器。Mask R-CNN [10]通过添加一个掩码分支来扩展Faster R-CNN，该分支在多任务学习的帮助下细化检测结果。HTC [4]通过新的级联架构进一步改进了Mask R-CNN中的掩码信息流。另一方面，单级检测器由YOLO [26，27]和SSD [23]推广。它们比两阶段检测器更简单，更快，但在引入RetinaNet之前，其准确性一直落后[20]。CornerNet [18]引入了一种见解，即边界框可以被预测为一对关键点。其他方法关注级联程序[24]，重复删除[14，13]，多尺度[2，1，31，30]，对抗学习[37]和更多的上下文[36]。他们都从不同的关注点取得了重大进展。目标检测的平衡学习。减轻目标检测训练过程中的不平衡对于实现最优训练和充分发挥模型架构的潜力至关重要。样本水平不平衡。OHEM [29]和焦点损失[20]是样本水平不平衡的主要现有解决方案823（IoU平衡（平衡金字塔图2：拟议的Libra R-CNN概述：一个整体的平衡设计的目标检测，它集成了三个新的组件（a）IoU平衡采样（b）平衡的功能金字塔和（c）平衡L1损失，分别减少样本，特征和目标水平的不平衡。在物体检测中。常用的OHEM根据其置信度自动选择硬样本。然而，这个过程会导致额外的内存和速度成本，使训练过程变得臃肿。此外，OHEM还受到噪声标签的影响，因此它不能在所有情况下都很好地工作。焦点损失以一种优雅的损失公式解决了单级检测器中额外的前景-背景类不平衡，但由于不平衡情况的不同，它通常不会给两级检测器带来增益。与这些方法相比，我们的方法是大大降低成本，并解决了这个问题优雅。功能级别不平衡。利用多层次特征来生成有区别的金字塔表示对检测性能至关重要。FPN [19]提出了横向连接，以通过自上而下的路径丰富浅层的语义信息。在此之后，PANet [22]引入了自下而上的路径，以进一步增加深层中的低级信息。Kong等人[17]提出了一种基于SSD的新型高效金字塔，它以高度非线性但有效的方式集成了这些特征。与这些方法不同的是，我们的方法依赖于综合平衡的语义特征来加强原始特征。以这种方式，金字塔中的每个分辨率从其他分辨率获得相等的信息，从而平衡信息流并使特征更具区分性。客观水平不平衡。Kendall等人[16]已经证明，基于多任务学习的模型的性能强烈依赖于每个任务损失之间的相对权重。但以往的方法[28，19，20]主要集中在如何提高识别能力7060504030201000.0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5IOU图3：随机选择样本、IoU平衡选择样本和硬阴性样本的IoU分布3. 方法Libra R-CNN的整体管道如图2所示。我们的目标是使用一种整体平衡的设计来缓解检测器训练过程中存在的不平衡，从而尽可能地挖掘模型架构的潜力。所有组件将在以下章节中详细介绍。3.1. IoU平衡采样让我们从基本问题开始：训练样本与其对应的地面实况之间的重叠是否与其难度相关联？为了回答这个问题，我们模型架构。最近，UnitBox [34]和IoU-Net [15]引入了一些与IoU相关的新目标函数，以提高定位精度。与之不同的是，我们的方法重新平衡了所涉及的任务和样本，以实现更好的收敛。进行实验以找出背后的真相。结果示于图3中。我们主要考虑硬负样本，这是已知的主要问题。我们发现超过60%的硬底片具有大于0的重叠。05，但随机抽样只能提供30%的训练-CNN（李箱头平衡L1Softmax硬性阴性IoU-平衡Sa姆普林采样恩多姆RA百分比824C5P5C4P4C3P3C2P2细化整合身份图4：平衡特征金字塔的流水线和热图可视化。对大于相同阈值的样本进行采样。这种极端的样本不平衡将许多硬样本埋在数千个简单样本中。基于这一观察结果，我们提出了IoU平衡采样：一种简单而有效的硬采矿方法，无需额外费用。假设我们需要从M个相应的候选者中采样N个阴性随机抽样下每个样本的选择概率为NP=.（一）M为了提高硬否定的选择概率，我们根据IoU将采样间隔均匀地划分为K个仓。N个所需的阴性样本被均匀地分配到每个箱中。然后，我们从它们中均匀地选择样本。因此，我们得到了IoU-平衡抽样3.2. 平衡功能金字塔与以前使用横向连接集成多层次特征的方法[19，22]不同，我们的关键思想是使用相同的深度集成平衡语义特征来加强流水线如图4所示。它包括四个步骤，重新调整，整合，精炼和加强。获得平衡的语义特征。分辨率级别1处的特征表示为Cl。多级特征的数量表示为L。所涉及的最低和最高级别的索引被表示为lmin和lmax。在图4中，C2具有最高分辨率。为了集成多层次特征并同时保持其语义层次，我们首先将多级特征{C2，C3，C4，C5}的尺寸调整为中间尺寸，即，和C4一样大，polation和max-pooling。一旦特征被重新缩放，则通过简单的平均来获得平衡的语义特征，N1pk=KM、 k∈ [0，K），（2）C=1 lmaxCl.（三）其中Mk是核心中的抽样候选人数量。Ll=lmin响应间隔由k表示。在我们的实验中，K默认设置为3在图3中，使用IoU平衡采样的采样直方图以绿色显示。可以看出，我们的IoU平衡采样可以引导训练样本的分布接近硬阴性样本的分布。实验还表明，性能对K不敏感，只要具有较高IoU的样本更有可能被选择。此外，还值得注意的是，该方法也适用于硬阳性样品。然而，在大多数情况下，没有足够的采样候选者来将这种亲测扩展到阳性样本。为了使平衡抽样程序更全面，我们抽样相等的阳性样本的每一个地面真理作为一种替代方法。然后使用相同但相反的过程重新缩放所获得的特征以增强原始特征。在本程序中，每个分辨率从其他分辨率获得相同的信息请注意，此过程不包含任何参数。我们观察到这种非参数方法的改进，证明了信息流的有效性。优化平衡的语义特征。平衡的自我--可以进一步细化特征以更好地区分，主动的我们发现直接使用卷积的精化和非局部模块[32]都工作得很好。但非本地模块工作更稳定。因此，我们在本文中使用嵌入的高斯非局部注意作为默认精炼步骤帮助我们增强集成功能并进一步改善结果。K825我我(a)（b）第（1）款图5：我们显示了（a）梯度和（b）平衡L1损失的损失曲线。平滑L1损失也以虚线示出γ默认设置为1.0。该方法同时实现了从低层到高层的特征聚合的输出{P2，P3，P4，P5}用于遵循FPN中的相同流水线的对象检测。值得一提的是，我们的平衡的特征金字塔可以与诸如FPN和PAFPN的最近的解决方案互补而没有任何冲突。3.3. 平衡L1损失自Fast R-CNN [7]以来，分类和定位问题在多任务丢失的指导下同时解决，其定义为Lp，u，tu，v=Lcls（p，u）+λ[u≥ 1]Lloc（tu，v）.（四）Lcls和Lloc是目标函数，对应于平衡L1损失是从传统的平滑L1损失中推导出来的，其中设置了一个拐点以分离内点和外点，并将由最大值为1.0的外点产生的大梯度剪切，如图5-（a）中的虚线所示。平衡L1损失的关键思想是促进关键的回归梯度，I.E.从内点（准确样本）中提取梯度，以重新平衡所涉及的样本和任务，从而在分类、整体定位和准确定位内实现更平衡的训练本地化损耗Lloc使用平衡L1损耗定义为ΣLloc=Lb（tu−vi），（5）i∈{x，y，w，h}其相应的梯度公式如下识别和定位。Lcls中的预测和目标表示为p和u。tu是与类别u对应的回归结果。V是回归目标。Lloc∂w中国Lb 请使用中国Lb x、（6）λ用于调整多任务学习下的损失权重。我们称损失大于或等于1.0个离群值的样本其他样本称为内点。基于上述公式，我们设计了一个促进梯度公式，.平衡所涉及的任务的自然解决方案是调整他们的损失重量。但是，由于回归指标的无界性，直接提高Lb=xαln（b|X|+1）如果|X|<1γ否则，（七）局部化损失将使模型对异常值更敏感这些离群值可以被视为硬样本，将产生过大的梯度，这对训练过程是与离群点相比，内点对整体梯度的贡献很小，可视为易样本。更具体地说，与离群值相比，内点仅贡献每个样本平均30%的梯度。考虑到这些问题，我们提出了平衡L1损失，表示为Lb。图5-（a）显示了我们的平衡L1损失在因子α的控制下增加了内点的梯度。α越小，内点的梯度越大，而外点的梯度不受影响。此外，还引入了一个由γ控制的整体提升放大率，用于调整回归误差的上界，以帮助目标函数更好地平衡所涉及的任务。控制不同方面的两个因素相互增强，以达到更平衡的训练。b用于826表1：与COCO测试开发的最新方法的比较。符号“*”表示我们重新实施的结果。The “方法骨干附表APAP50AP75APSAPMAPL[27]第二十七话暗网-19-21.644.019.25.022.435.5SSD512 [23]ResNet-101-31.250.433.310.234.549.8[20]第二十话ResNet-101-FPN-39.159.142.321.842.750.2更快的R-CNN [19]ResNet-101-FPN-36.259.139.018.239.048.2可变形R-FCN [6]inception-ResNet-v2-37.558.040.819.440.152.5Mask R-CNN [10]ResNet-101-FPN-38.260.341.720.141.150.2更快的R-CNNResNet-50-FPN1×36.258.538.921.038.945.3更快的R-CNNResNet-101-FPN1×38.860.942.122.642.448.5更快的R-CNNResNet-101-FPN2×39.761.343.422.143.150.3更快的R-CNNResNeXt-1011×41.963.945.925.045.352.3RetinaNetResNet-50-FPN1×35.855.338.620.039.045.1Libra R-CNN（我们的）ResNet-50-FPN1×38.759.942.022.541.148.7Libra R-CNN（我们的）ResNet-101-FPN1×40.361.343.922.943.151.0Libra R-CNN（我们的）ResNet-101-FPN2×41.162.144.723.443.752.5Libra R-CNN（我们的）ResNeXt-1011×43.064.047.025.345.654.6Libra RetinaNet（我们的）ResNet-50-FPN1×37.856.940.521.240.947.7确保Lb（x=1）对于等式中的两个公式具有相同的值（八）、通过对上面的梯度公式进行积分，我们可以得到平衡的L1损失. α（b|X|+1）ln（b|X|+1）− α|X|如果|X|<1当每个图像分别有100、300和1000个建议时调用。4.2.实现细节为了公平比较，所有实验都在PyTorch [25]和mmdetection [5]上实现。使用的主链Lb（x）=Bγ|X|+ C否则，（八）在我们的实验中是公开的。我们用8个GPU（每个GPU2个图像）训练检测器12个epoch，其中，参数γ、α和b受以下约束：αln（b+1）= γ。（九）默认参数设置为α=0。5，γ=1。5在我们的实验中4. 实验4.1. 数据集和评估指标所有实验均在具有挑战性的MS COCO [21]数据集上实施它包括用于训练的115 k图像（train-2017）和用于验证的5 k图像（val-2017）。在test-dev中还有20 k个没有公开标签的图像我们在train-2017上训练模型，并分别在val-2017和test-dev上报告消融研究和最终结果。所有报告的结果都遵循标准的COCO风格的平均精度（AP）指标，包括AP（IoU阈值的平均值），AP50（IoU阈值50%的AP），AP75（IoU阈值75%的AP）。我们还包括APS，APM，APL，它们分别对应于小，中，大尺度的结果 COCO 风格的平均召回率（AR），AR100，AR300，AR1000对应于平均召回率。827初始学习率为0.02，在8之后降低0.1，如果未特别注明，则分别为11个时期。如果没有特别说明，所有其他超参数均遵循mm检测[54.3. 主要结果我们将Libra R-CNN与表1中COCO测试开发的最先进对象检测方法进行了比较。为了与相应基线进行公平比较，我们报告了重新实施的结果，这些结果通常高于文献中报告的结果。通过整体平衡设计， Libra R-CNN 使用 ResNet-50 实现了 38.7 AP[12]，这是2. AP比FPN Faster R-CNN高5分。使用更强大的特征提取器ResNeXt-101- 64 x4 d [33]，LibraR-CNN实现了43.0 AP。除了两阶段框架之外，我们还将Libra R-CNN扩展到单阶段检测器，并报告了Libra RetinaNet的结果。考虑到RetinaNet [20]中没有采样过程，LibraRetinaNet仅集成了平衡特征金字塔和平衡L1损失。没有花里胡哨的东西，Libra RetinaNetResNet-50的AP提高 2.0分，达到37.8 AP。828表2：Libra R-CNN中每个组件的效果结果报告于COCOval-2017。IoU平衡采样平衡功能金字塔平衡L1损失APAP50AP75APSAPMAPL35.958.038.421.239.546.4C36.858.040.021.140.348.2CC37.759.440.922.441.349.3CCC38.559.342.022.942.150.5表3：Libra RPN和RPN之间的比较。符号方法主干AR100 AR300 AR1000RPNResNet-50-FPN42.551.257.1RPNResNet-101-FPN45.453.258.7RPNResNeXt-10147.855.059.8Libra RPN（我们的）ResNet-50-FPN52.158.362.5表4：COCOval-2017上IoU平衡采样的消融研究。设置APAP50AP75APSAPMAPL基线35.958.038.421.239.546.4Pos平衡36.158.238.221.340.247.3K= 236.757.839.920.539.948.9K= 336.857.939.821.439.948.7K= 536.757.739.919.940.148.7我们的方法还可以提高前代的平均召回率。如表3所示，Libra RPN带来了9 .第九条。2点高AR 100，6。9点上涨AR 300和5. 4AR1000与RPN相比，ResNet-分别50。请注意，较大的主干只会给RPN带来轻微的增益。Libra RPN可以实现比ResNeXt-101- 64 x4 d高4.3点的AR100，Libra RPN的显著改进验证了RPN的潜力在有效的平衡训练中得到了更大的开发。4.4. 消融实验总体消融研究。到分析的考虑到每个建议组分的重要性，我们在表2中报告了总体烧蚀研究。我们逐渐在ResNet-50 FPN Faster R-CNN基线上添加IoU平衡采样，平衡特征金字塔和平衡L1损失。消融研究的实验采用相同的预先计算的建议进行公平的比较。1)IoU平衡采样。 IoU平衡采样使盒子AP比ResNet-50 FPN更快的R-CNN基线高出0.9个点，验证了这一点随机抽样IoU-平衡抽样图6：分别在随机抽样和IoU平衡抽样下训练样本的可视化。廉价的硬采矿方法。我们还在图6中可视化了随机抽样和IoU平衡抽样下的训练样本。可以看出，所选样本被聚集到我们更感兴趣的区域，而不是随机出现在目标周围。2) 平衡功能金字塔。平衡功能金字塔- mid提高框AP从36.8到37.7.小、中、大尺度下的测试结果都得到了一致的改善，验证了均衡语义特征均衡了各个层次的低层和高层信息，并产生了一致的改善效果。3) 平衡L1损失。平衡的L1损失将箱AP从37.7提高到38.5。更具体地说，大多数改进来自AP75，与相应的基线相比，AP提高了1.1分。实验结果表明，定位精度有了很大提高.IOU平衡采样的消融研究。表4显示了IoU平衡采样的不同实现的实验结果。我们首先验证了互补部分的有效性，即。对每个基础真值采样相同数量的正样本，如第3.1节所述，并在表4中用Pos Balance表示。由于阳性样本太少，无法探索这种方法的潜力，因此与ResNet-50 FPN Faster R-CNN基线相比，这种采样方法829表5：COCOval-2017的平衡语义金字塔消融研究。表6：COCOval-2017上平衡L1丢失的消融研究。括号中的数字表示损失的重量。设置AP AP50AP75APSAP MAP L基线35.9 58.0 38.4 21.2 39.5 46.4一体化精加工36.859.5 39.5 22.3 40.6 46.5[22] 21.7 39.9 46.3平衡型PAFPN37.2 60.0 39.8 22.7 40.8 47.4然后，我们评估的有效性IoU平衡采样的负样本与不同的超参数K，这表示的间隔的数量。表4中的实验表明，当参数K设置为2、3或5时，结果彼此非常接近。因此，在我们的IoU平衡采样中，采样间隔的数量并不重要，只要更有可能选择硬阴性即可。平衡特征金字塔的消融研究。平衡特征金字塔的验证研究如表5所示。我们还报告了PAFPN的实验[22]。我们首先实现平衡的功能金字塔只与集成。结果表明，朴素特征集成带来了0.4点高于相应的基线框AP。请注意，此过程中没有细化，也没有添加参数。通过这种简单的方法，每个分辨率从其他分辨率获得相等的信息。虽然这个结果与PAFPN [22]的结果相当，但我们在没有额外卷积的情况下达到了特征级平衡，验证了这种简单方法的有效性。随着嵌入的高斯非局部注意力[32]，平衡特征金字塔可以进一步增强并改善最终结果。我们的平衡特征金字塔在COCO数据集上能够达到36.8 AP，0.9 AP比ResNet-50 FPN更快的R-CNN基线更高。更重要的是，平衡的语义特征与PAFPN 没有冲突基于PAFPN，我们包括我们的功能平衡方案，并在表5中用平衡的PAFPN表示这种实现。结果表明，平衡PAFPN能够在COCO数据集上实现37.2框AP，与 PAFPN相比AP高0.9点。平衡L1损失的消融研究。平衡L1丢失的消融研究如表6所示。我们观察到，定位损失主要是识别损失的一半。因此，我们首先验证了直接提高损失重量时的性能结果表明，调谐损失重量仅使结果改善0.5个点。结果与2.0的损失重量开始下降。这些结果表明，离群值对训练过程产生了负面影响，使模型结构的潜力得不到充分发挥。我们也用L1损失比较。实验结果表明，其结果不如我们的。虽然整体成绩有所提高，但AP50和APS下降明显.为了直接与调谐损耗权重进行比较，我们首先验证平衡L1损耗的有效性，γ=1。平衡的L1损失能够使AP比基线高0.8分。在我们的最佳设置下，平衡L1损失最终达到37。2AP，比ResNet-50 FPN Faster R-CNN基线高1.3分。这些实验结果验证了我们的平衡L1实现了更平衡的训练，使模型更好地收敛。5. 结论在本文中，我们系统地回顾了检测器的训练过程，发现由于训练过程中存在的不平衡问题，模型架构的潜力没有得到充分发挥。基于观察，我们提出了LibraR-CNN，通过整体平衡设计来平衡不平衡。借助简单而有效的组件，即.通过IoU平衡采样、平衡特征金字塔和平衡L1损失，Libra R-CNN对具有挑战性的MSCOCO数据集进行了重大改进。大量的实验表明，Libra R-CNN可以很好地推广到两阶段检测器和单阶段检测器的各种骨干。鸣谢本工作得到浙江省科技计划部分资助中国（不。 2017C01033 ）、民用基础研究（ No.D040301）、商汤科技集团的合作研究资助（香港中文大学协议编号：TS1610626No.TS1712093）及香港政府一般研究基金（&第14236516&号14203518）。设置APAP50AP75 APSAPMAPL基线35.958.038.421.239.546.4失重= 1.536.458.039.720.839.947.5失重= 2.036.257.339.520.240.047.5L1损失（1.0）36.457.439.121.039.747.9L1损失（1.5）36.657.239.820.240.048.2L1损失（2.0）36.456.539.620.139.848.2α= 0。2，γ =1。036.758.139.521.440.447.4α= 0。3，γ =1。036.558.239.221.640.247.2α= 0。5，γ =1。036.558.239.221.539.947.2830引用[1] Sean Bell，C Lawrence Zitnick，Kavita Bala，and RossGir- shick.内外网：用跳跃池和递归神经网络检测上下文中的对象。在IEEE计算机视觉和模式识别会议上，2016年。[2] Zhaowei Cai，Quanfu Fan，Rogerio S Feris，and NunoVas-concelos.用于快速目标检测的统一多尺度深度卷积神经网络。2016年欧洲计算机视觉会议[3] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在IEEE计算机视觉和模式识别会议上，2018。[4] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，and Dahua Lin.用于实例分段的混合任务级联。arXiv预印本arXiv：1901.07518，2019。[5] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，Chen Change Loy，and Dahua Lin. mm检测。https://github.com/open-mmlab/mmdetection，2018.[6] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统进展，2016。[7] 罗斯·格希克。快速R-CNN。IEEE计算机视觉和模式识别会议，2015。[8] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议上，2014年。[9] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。检测r on。https：//github.com/facebookresearch/detectron，2018年。[10] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。 IEEEInternationalConference on Computer Vision，2017。[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。2014年欧洲计算机视觉会议[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别上，2016年。[13] Jan Hendrik Hosang ， Rodrigo Benenson ， and BerntSchiele.学习非最大抑制。2017年在IEEE计算机视觉和模式识别会议上发表[14] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别上，2018年。[15] 蒋博瑞，罗瑞轩，毛嘉源，肖特特，蒋云英获取用于精确对象检测的定位置信度 arXiv 预印本 arXiv ：1807.11590，1，2018。[16] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。arXiv预印本arXiv：1705.07115，3，2017。[17] Tao Kong，Fuchun Sun，Wenbing Huang，and HuapingLiu.用于目标检测的深度特征金字塔重构。arXiv预印本arXiv：1808.07993，2018。[18] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在2018年欧洲计算机视觉会议[19] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。IEEE计算机视觉和模式识别会议，2017年。[20] Tsung-YiLin ， Priyal Goyal ， Ross Girshick ， KaimingHe ， and PiotrDoll a'r. 密集目标检测的焦面损失。IEEETransactionsonPatternAnalysisandMachineIntelligence，2018。[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年欧洲计算机视觉会议[22] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络在IEEE计算机视觉和模式识别会议上，2018。[23] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，2016年。[24] Wanli Ouyang ， Kun Wang ， Xin Zhu ， and XiaogangWang.用于目标检测的链式级联网络。在2017年IEEE国际计算机视觉会议[25] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[26] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。2016年在IEEE计算机视觉和模式识别会议上发表[27] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好，更快，更强。arXiv预印本，2017年。[28] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。在神经信息处理系统的进展，2015年。[29] Abhinav Shrivastava，Abhinav Gupta和Ross Girshick。训练基于区域的对象检测器与在线硬示例挖掘。2016年在IEEE计算机视觉和模式识别会议上发表[30] Bharat Singh和Larry S Davis。目标检测中的尺度不变性分析。在IEEE计算机视觉和模式识别会议上，2018。[31] Bharat Singh ， Mahyar Najibi ， and Larry S Davis.SNIPER：高效的多尺度训练。NIPS，2018年。[32] 王晓龙，Ross Girshick，Abhinav Gupta，和Kaiming He.非局部神经网络。arXiv预印本arXiv：1711.07971，2017年10月。[33] Saini ngXie，RossGirshick，PiotrDolla'r，Zhuo wenTu，andKaiming He.深度的聚合残差变换831神经网络。2017年在IEEE计算机视觉和模式识别会议上发表[34] Jiahui Yu，Jiangyang Wang，Zhimin Cao，and ThomasHuang.Unitbox：一个先进的目标检测网络.第24届ACM国际多媒体会议集，第516-520页。ACM，2016。[35] Matthew D Zeiler和Rob Fergus。可视化和理解卷积网络。2014年欧洲计算机视觉会议[36] Xingyu Zeng，Wanli Ouyang，Junjie Yan，HongshengLi，Tong Xiao，Kun Wang，Yu Liu，Yucong Zhou，BinYang，Zhe Wang，et al.制作用于物体检测的gbd-netIEEE transactions on pattern a

下载后可阅读完整内容，剩余1页未读，立即下载