本地化召回精度（LRP）：一种新的目标检测性能指标

183 浏览量更新于2023-10-13 收藏 874KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

本地化召回精度（LRP）：一种新的目标检测性能指标Kemal Oksuz[0000−0002−0066−1517]、Baris CanCam[0000−0001−8480−4636]、Emre Akbas[0000−0002−3760−6722]、SinanKalkan[0000−0003−0915−5917]部计算机工程，中东技术大学，土耳其安卡拉{kemal.oksuz，can.cam，eakbas，skalkan} @metu.edu.trhttp://image.ceng.metu.edu.tr抽象。平均精度（AP），即召回-精度（RP）曲线下的面积，是对象检测的标准性能度量。尽管其被广泛接受，但它具有许多缺点，其中最重要的是（i）不能区分非常不同的RP曲线，以及（ii）缺乏在CC中直接测量边界框定位。在本节中，我们提出了 “Localiza t i o n R e c a l lP reci s i o n（LRP）Error”，这是一种专门为对象检测设计的新度量。LRP误差由与定位相关的三个分量、假阴性（FN）率和假阳性（FP）率组成基于LRP，我们引入了“OP最小L RP”（ο L RP），最小L RP表示检测器在召回精度和盒的紧密性方面的最佳可实现配置。与考虑整个召回域上的精度的AP相比，oLRP确定用于分类的“最佳”识别精度，其中定位与召回精度之间的比率是平衡的。在我们的实验中，我们表明，oLRP提供了更丰富，更有区别的信息比AP。我们还证明了最佳置信度得分阈值在类和检测器之间变化显著此外，我们提出了一个简单的在线视频对象检测器的LRP结果，并表明类特定的优化阈值提高了对所有类使用通用阈值的常见方法的准确性我们的实验表明，LRP是更称职的比AP在捕获检测器的性能。我们的PASCALVOC和MSCOCO数据集的源代码在https://github.com/cancam/LRP上提供。关键词：平均精度·目标检测·性能指标·最佳阈值·召回精度1介绍今天，“平均预测”（AP）是目标检测竞赛[ 8，14，28]以及静态图像目标检测[ 6，13，16，24]，视频目标检测[ 9，12，36]和在线视频目标检测[ 17，34]研究中的目标和预测评估的关键因素。美联社不仅享有如此广泛的接受，但它似乎也没有受到只有少数几篇论文是这样写的-2K. Oksuz，B.C. Cam，E. Akbas和S. 卡尔坎在多项研究[13，24]中，AP似乎是用于比较对象检测方法的唯一标准。(a)(b)（c）第（1）款(d)（e）（f）图1：具有非常不同的RP曲线但具有相同AP的三个不同的对象检测结果（针对来自ILSVRC [28]的图像AP无法识别这些曲线之间的差异。（a、b、c）红色、蓝色和绿色分别表示地面实况、真阳性;假阳性。数字是检测置信度分数。（d，e，f）（a，b，c）中相应检测的RP曲线、AP和LRP结果红叉表示最优LRP点。尽管AP很受欢迎，但它也有一些不足之处。首先，AP无法区分非常不同的RP曲线：在图1中，我们呈现了三个假设对象检测器的检测结果。（a）中的检测器仅检测一半的对象，但具有全精度;这是低召回率高精度检测器。相比之下，（b）中的检测器检测所有对象;然而，对于每个正确的检测，它也产生接近于重复的检测，其逃避了非最大值抑制。因此，检测器（b）是高查全率低精度检测器。而（c）中的检测器介于两者之间;它表示具有较高精度和较低召回率的检测器，反之亦然。尽管它们的特性非常不同，但这些检测器的AP完全相同（AP=0. （五）。人们需要检查RP曲线以了解行为的差异，这对于大量的类来说可能是耗时且不切实际的，例如在ImageNet对象检测挑战[28]中有200个类。AP的另一个缺陷是它没有明确地包括局部化精度：不能从AP推断出绑定框检测的紧密性水平然而，由于提取更紧密的边界框是一个理想的属性，几乎每一篇关于这个主题的论文都主要LRP：一种新的目标检测性能度量3定性地[6，9，16，17，24]，并且一些通过计算不同的交叉-联合（IoU）阈值的AP得分来定量地[13，16，24]。然而，这种定量方法也不直接测量定位精度，并且对于定性方法，样本框很可能非常有限且有偏差。我们将在第3节讨论AP的其他不太严重的缺陷。期望的性能度量包括与性能相关的所有因素。在对象检测中，最重要的三个因素是（i）真阳性（TP）的定位准确度，（ii）假阳性（FP）率和（iii）假阴性（FN）率。能够基于这些因素评估检测器是性能测量的另一个期望的属性，因为它可以揭示改进方向。此外，性能度量应该揭示检测器的RP特性（如图1所示的LRP）。①的人。这种能力将有利于某些应用程序。例如，使用高精度检测器在视觉跟踪方法中是常见的[3，4，31，32，37]，而初始化跟踪器，称为通过检测进行跟踪，因为需要更快的响应时间而且，在在线视频对象检测中，当前的方法是使用具有一般阈值（例如， Association-LSTM [17]使用SSD [16]检测，置信度得分高于0。（八）。一个理想的性能测量应该有助于设置每个类的最佳置信度阈值。在本文中，我们提出了一个新的度量称为“本地化召回- P r ec i s i on E r r or“（LR P，f or s h or t）。LRPive应用程序组件与精确度、召回率和IoU密切相关，并且LRP corre s p的每个参数化都在RPcurve上显示。我们采用“最小LRP”，即最小可实现LRP误差，作为AP的替代性能度量。最佳LRP缓解了AP的缺点，通过其组件表示边界框的紧密性和RP曲线的形状，并且更适合于消融研究。最后，基于最优LRP，提出了一种置信度阈值方法，以最优的方式减少检测的数量。我们广泛的实验证实LRP是一种高性能的用于彻底比较对象检测器的度量。2相关工作信息论性能指标：几个性能措施，sures已得出的混淆矩阵。其中，最相关的是F-测度[25]，定义为精确度和召回率的调和平均值然而，F-测度违反了三角不等式，因此，它不适合作为度量[20]，并且它在正类和负类中不对称这些违规和它无法测量边界框紧密性，防止其用于以一致的方式在检测器之间进行比较。而且，[5]指出，除了精度，所有的信息论测度都有未定义的区间。例如，当TP的数量为0时，即使存在检测，F-测量也是未定义的。AP也是一种信息论度量，其不足之处将在第1节和第3节中讨论。4K. Oksuz，B.C. Cam，E. Akbas和S. 卡尔坎点多目标跟踪性能指标：目标检测与多目标跟踪问题非常相似。在这两个问题中，存在多个要检测的实例，并且定位、FN和FP率是成功的共同标准目前，基于组件的性能指标是公认的评估点多目标跟踪滤波器的方式组合定位和基数（包括FP和FN）误差的第一个度量是最优子模式分配（OSPA）[29]。在OSPA之后，已经提出了几种度量和指标作为其变体[19，23，26，27，29，30，35]。类似地，CLEAR多对象跟踪度量[1]仅考虑FP和失配率，而忽略定位误差。然而，在对象检测文献中缺乏类似的措施和度量，尽管观察到类似的性能设置分类器的阈值：关于精确率-召回率平衡性能度量的优化研究主要集中在F-度量上。 [7]考虑使用插件规则在推理时最大化F度量，而[18，33]在支持向量机和条件随机场的训练期间提供最大化。类似地，[15]旨在基于最大化F度量来找到概率分类器的最佳阈值最后，[21]提出了F-度量优化的理论分析，这也证实了[15，22]中描述的阈值-F-度量关系。综上所述，我们看到现有的方法大多集中在用于优化分类器的阈值的F-度量上，然而，其具有上述缺点。此外，F-测度被证明是凹的关于其输入，TP和FP的数量[15]，这使得分析优化是不可能的。此外，这些研究都没有特别考虑对象检测问题，因此这些措施没有直接包括定位误差。因此，与以前的工作不同，我们特别感兴趣的是性能评估和最佳阈值的深对象检测器。此外，我们直接优化一个行为良好的功能，在实践中具有较小的域，以确定类特定的阈值。3平均精度分析及其不足由于篇幅的限制，我们省略了AP的定义，并请读者参阅随附的补充材料或[8]。AP的临床诊断存在微小差异。例如，在PASCAL VOC 2007挑战[8]中，AP通过在超过11个点（其将整个召回域等分）处的简单分组来计算，而在MSC0C0 [14]中，使用101个点中间点处的精度而单个交并（IoU）阈值，其为0。5，用于PASCAL VOC [8]; IoU阈值范围（从0. 五比零。95）在MSC 0 C 0中使用;IoU阈值的该范围上的平均AP也被称为 mAP。LRP：一种新的目标检测性能度量51−τAP旨在评估检测器在整个召回范围内的精度。因此，它有利于在整个召回域上具有精度的方法，而不是RP曲线更接近右上角的检测器。换句话说，AP不比较检测器的最大值，而是比较检测器的总体AP最重要的两个缺陷将在第1节中讨论。在下文中，我们列出了其他更小的缺陷。AP对置信度分数不敏感。由于需要检测的排序列表来计算AP，所以在有限间隔内生成结果的检测器将导致相同的AP。作为示例，仅考虑在图1中具有相同置信度分数的2个检测。1出4地面真理。请注意，将置信度分数设置为任何值（即0的情况。01）导致相同的AP，只要秩序得到了维护。AP不建议最佳集合的置信度得分阈值-物体探测器的声音然而，在实际应用中，由于时间限制，检测通常需要被过滤例如，现有技术的在线对象检测器[17]应用置信度分数阈值0。8的SSD方法[16]，并以这种方式获得12fpsAP使用相邻召回值之间的内插，这对于特定大小的情况而言是特别可行的。例如，[ 14]的“ to a s t e r ” 类在验证 20 1 7 集合中具有 9个实例。4本地化-查全率-查准率（LRP）错误令X是地面实况框的集合，并且Y是由对象检测器返回的框的集合。为了计算LRP（X，Ys），在给定的得分阈值s（0≤s≤ 1）和IoU阈值τ（0≤τ 1）下Ys对X的LRP误差;首先，构造Ys，置信度得分大于s的检测集，并且Y中的检测被分配给X中的地面实况框，如针对AP所做的那样。一旦进行了分配，就计算以下值：（i）NTP，真阳性的数量;（ii）NFP，假阳性的数量;（iii）NFN，假阴性的数量。使用这些量，LRP误差为：LRP（X，Ys）：=1（wIoULRPIoU（X，Ys）+wFPLRPFP（X，Ys）+wFNLRPFN（X，Ys）），Z（一）其中，Z = N TP+ N FP+ N FN是归一化常数;并且权重w IoU= NTP，wFP= N FP。|Y s|，且w FP= |X|控制项的贡献。权重使得每个分量易于解释，提供关于检测器的进一步信息，并且防止总误差在任何时候都是未定义的。单个分量的分母是0。LRPIoU表示有效检测的IoU紧密度，如下所示：1LRPIoU（X，Ys）：=NTPNΣTPi=1（1−IoU（xi，yxi）），（2）其测量由正确检测产生的平均边界框定位误差另一种解释是1−LRPIoU（X，Ys）是有效检测的平均6K. Oksuz，B.C. Cam，E. Akbas和S. 卡尔坎第二个组成部分，LRPFP，在方程。1测量假阳性：LRPFP（X，Ys）：= 1−精度 = 1− NTP|Ys|NFP=|Ys|、（3）假阴性由LRPFN测量：LRPFN（X，Ys）：= 1-Recall=1-NTP|X|NFN=|X|.（四）FP和FN分量一起分别通过1− LRPFP（X，Ys）和1− LRPFN（X，Ys）表示对应Ys将IoU表示为nxi∈X，并且将IoU表示为通过yIoU（xi，yxi）对y x i ∈ Y s进行的有意义的检测，LRP误差可以以更紧凑的形式被同等地定义为：LRP（X，Ys）：=1NTP+NFP+NFN.NΣTPi=1Σ1−IoU（xi，yxi）+NF P+NF N1−τ.（五）LRP通过由1-τ归一化到[0，1]区间的错误定位来惩罚每个TP，每个FP和FN通过作为惩罚上限的1来惩罚。该误差总和通过其贡献者的总数来平均，即，NTP+NFP+NFN。因此，通过这种归一化，LRP产生表示[0，1]区间中每个边界框的平均误差的值，其中每个分量对误差的贡献相等必要时，可以针对不同的应用改变IoU、FP、FN的个体重要性。为此，可以将突出分量乘以分子和分母中的因子（例如C）[19]。这意味着对于突出类型的每个误差具有C个总的来说，总误差和分量的范围是[0， 1]，并且较低的值意味着更好的性能。在极端情况下;对于LRP为0意味着每个地面实况项被检测到具有完美定位，并且如果LRP为1，则没有有效的检测与基本事实相匹配（即，|= N F P）。|= N FP). LRP是仅当地面实况和检测集都为空时未定义（即，NTP+NFP+NFN= 0），即，没有什么可评估的。对于参数，s是置信度得分阈值，τ是IoU阈值。由于RP对由FP FN分量直接识别，因此每个不同的检测组Ys对应于RP曲线的特定点。出于这个原因，减小s对应于在正召回方向上沿着RP曲线移动。τ定义了待验证为TP的检测的最小重叠。换句话说，更高的τ意味着我们需要更紧的BB。总体而言，两个参数均与RP曲线相关：τ值设置RP曲线，s值沿RP曲线移动以评估LRP误差。在补充材料中，我们证明了LRP是一个度量。LRP：一种新的目标检测性能度量7Σ5最优LRP（oLRP）误差：性能指标和指标持有人最优LRP（oLRP）被定义为最小可实现LRP误差，τ = 0。5，这使得oLRP参数独立：oLRP：= minLRP（X，Y s）。（六）S对于消融研究和实际要求，可以采用不同的τ值在这种情况下，oLRP@τ可以用于表示τ处的最优LRP误差。oLRP在置信度分数中搜索以找到用于计算精确度-召回率-IoU的最佳平衡oLRP已经找到的RP曲线的RP设置对应于曲线的右上部分，其中最佳平衡设置驻留。我们称一条曲线比另一条RP曲线更尖锐，如果它在右上部分的峰值点更接近（1，1）RP对。为了说明，图1中的RP曲线。图1（d）和图1（e）中的曲线比图1（d）和图1（ e）中的曲线更尖锐1（f）.oLRP的组件被创造为最优盒定位（oLRPIoU）、最优FP（oLRPFP）和最优FN（oLRPFN）组件。在这种情况下，oLRPIoU描述了类别的平均紧密度，并且oLRPFP和oLRPFN-起涉及曲线的锐度，因为对应的RP对是检测器对此的最大可实现性能值。课可以通过1− oLRPFP和1 − oLRP FP直接确定锐度点。oLRPFN.总的来说，与AP不同，oLRP旨在找出检测器的最佳类别特定设置，并且它倾向于也代表更好的BB紧密性的更清晰的设置用oLRPc表示类c∈C的oLRP误差，即平均最优LRP（moLRP）定义如下：moLRP：= 1oLRP c.（七）|c ∈ C|c∈C与mAP中一样，moLRP是整个检测器的性能度量分别用moLRPIoU、moLRPFP、moLRPFN表示的平均最优盒定位、FP和FN分量与oLRP中的分量不同，平均最佳FP和FN分量不一定是所有类别的RP曲线的平均值，因为平均moLRPFP（即，精度）与不同的moLRPFN（即，重新调用）值，但仍提供关于如实验中所示的RP曲线的锐度的信息。由于其滤波能力，oLRP可用于阈值化目的。如果问题需要图像对象检测器作为主干并且处理要在有限的时间内完成，则应该仅选择检测的小子集。对于这种方法，使用对象检测器的总体置信度得分是常见的方法[17]。对于这样的任务，oLRP识别类特定的最佳置信度得分阈值。该方法的一个可能的缺点是，经验证的检测仍然可能太大而不能在处理器中处理8K. Oksuz，B.C. Cam，E. Akbas和S. 卡尔坎想要的有限时间然而，通过接受更大的LRP误差，可以设置更高的置信度分数，但是再次以类特定的方式。oLRP的第二实际用途是关于将所设计的对象检测器部署到平台中，其中为了用户友好性而丢弃置信度分数。在这种情况下，需要在优化最佳置信度分数的同时考虑应用要求来设置τ从本质上讲，计算oLRP是一个优化问题。然而，由于较小的搜索空间，我们建议将s域离散为0。01间隔的间隔和搜索在这个有限的空间彻底。6实验评价在本节中，我们分析了LRP的参数，表示其对常见对象检测器的鉴别能力，并最终表明类特定阈值提高了简单在线视频对象检测器的性能。评估的物体探测器：我们评估常用的深目标探测器;即Faster R-CNN、RetinaNet和SSD。对于Faster R-CNN和RetinaNet变体，我们使用[11]的模型，对于SSD变体，使用[10]的模型对于变体，我们使用R50，R101和X101，同时分别参考ResNet-50，ResNet-101和RexNeXt-101主干和FPN用于特征金字塔网络。所有模型都在“MS COCO验证2017”上进行了测试，00.20.40.60.8100.20.40.60.8100.20.40.60.8100.20.40.60.81图2：对于每个类别，更快的R-CNN（X101+FPN）的LRP分量总误差与s的关系图。最佳置信度分数用十字标记6.1分析参数s和τ使用前10个类别的Faster R-CNN（X101+FPN）结果和为清楚起见的平均误差，在图中分析了s和τ的影响。2和3 我们观察到，框定位分量不受增加s的显著影响，除了大的s之外，其中误差略微减小，因为结果倾向于更“精确”。FP和FN组件将分别执行和重新计算，如预期。因此，较低的曲线意味着这些组件的性能更好。最后，总误差（oLRP）具有二阶形状。由于定位误差不受s的显著影响，因此11110.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.20000人自行车车摩托车飞机总线火车卡车船红绿灯LRP：一种新的目标检测性能度量9minMax总错误主要由FP和FN分量决定，这导致总错误的全局最小值具有良好的查准率和查全率平衡。图在图3中，oLRP和moLRP相对于不同的τ值作图如预期的，较大的τ值意味着较低的盒定位分量（oLRPIoU）。另一方面，增加τ导致FP和FN分量快速增加，从而导致更高的总误差（oLRP）。这是直观的，因为在极端情况下当τ= 1时，几乎没有任何有效检测，并且所有检测都是假阳性，这使得oLRP近似为1。因此，oLRP允许通过还提供附加信息来测量针对需要不同τ的应用而设计的检测器的性能此外，研究不同τ值的oLRP代表消融研究的良好扩展10.80.60.410.80.60.410.80.60.410.80.60.40.2000.20.40.60.810.2000.20.40.60.810.2000.20.40.60.810.2000.20.40.60.81图3：对于每个类别，更快的R-CNN（X101+FPN）的oLRP及其分量相对于τ绘制。平均值表示80个类的平均值。表1：常见对象检测器的性能比较。R50、R101和X101代表ResNet-50、ResNet-101和RexNeXt-101使用的骨干网络FPN是指特征金字塔网络。s*和s*表示最小和最大类特定阈值分别为oLRP。请注意，非-与AP一样，LRP的得分越低越好地图 mAP@0.5 moLRP moLRPIoU moLRPFP moLRPFN s*min s*Max公司简介0的情况。1610的情况。3830的情况。8540的情况。2810的情况。4030的情况。6220的情况。050的情况。53SSD-5120的情况。2840的情况。4810的情况。7630的情况。2020的情况。3310的情况。5490的情况。080的情况。63更快的R-CNN（R50）0的情况。3480的情况。5570的情况。7140的情况。1830的情况。2920的情况。4840的情况。180的情况。93RetinaNet（R50+FPN）0的情况。3570的情况。5470的情况。7110的情况。1690的情况。2930的情况。5030的情况。260的情况。60更快的R-CNN（R50+FPN）0的情况。3790的情况。5930的情况。6890的情况。1750的情况。2590的情况。4540的情况。410的情况。94RetinaNet（X101+FPN）0的情况。3980的情况。5950的情况。6770的情况。1610的情况。2550的情况。4620的情况。280的情况。70更快的R-CNN（R101+FPN）0的情况。3980的情况。6130的情况。6730的情况。1680的情况。2550的情况。4360的情况。370的情况。94更快的R-CNN（X101+FPN）0的情况。4130的情况。6370的情况。6630的情况。1710的情况。2560的情况。4130的情况。390的情况。946.2评估常见图像对象检测器人自行车车摩托车飞机总线火车卡车船红绿灯10K. Oksuz，B.C. Cam，E. Akbas和S. 卡尔坎一般操作：表格将使用AP作为COCO的标准度量、mAP@0.50、moLRP和类别特定阈值范围的检测结果进行了比较。我们观察到moLRP值指示检测器的已知性能对于任何类型的检测器，每个新属性（即，包括FPN，LRP：一种新的目标检测性能度量11增加深度，使用ResNext用于更快的R-CNN和RetinaNet，将SSD的输入大小增加到 512 ）如预期的那样降低了 moLRP 此外，除了RetinaNet（X101+FPN）和Faster R-CNN（R101+FPN）之外，整体顺序与mAP一致，它们在mAP方面是相等的;然而，Faster R-CNN（R101+FPN）在moLRP方面超过RetinaNet（X101+FPN），这在下面讨论。注意，表1中的moLRP FP和moLRP FN值也与如图1所示的方法的 RP 曲线的锐度一致。 4. 第一章为了说明， Faster R-CNN（X101+FPN）具有最佳的moLRPFP、moLRPFN组合，对应于最尖锐的RP曲线。另一个有趣的示例涉及RetinaNet（X101+FPN）和FasterR-CNN（R50+FPN）曲线。对于这些方法，moLRPFP和moLRPFN比较略微有利于更快的R-CNN（R50+FPN），这通过图1B中的PR曲线证明4.第一章10.80.60.40.200 0.20.40.60.8 1召回图4：常见检测器的平均RP曲线。基于类的比较和解释组件：现在，我们在类的基础上分析oLRP，并查看各个组件，以更好地了解方法的特性-参见图。五、对于所有三个类别，在RP对处确定oLRP，其中在曲线的右上部分存在急剧的精度降低。此外，直观地，这些对提供了精确度和召回率之间的良好平衡。考虑FP和FN分量，可以推断曲线的结构对于所有的方法，“斑马”类具有最尖锐的RP曲线，对应于较低的FP FN误差值。例如，更快的R-CNN具有0。069和0。188个FP和FN误差值，分别因此，在不看曲线的情况下，可以认为曲线的峰值位于1 - 0。069 =0。931精度和1 - 0。188 = 0。812召回。对于“bro cc oli”曲线，a le ss sharp on e，opt imal p on t is at 1 − 0。498=0。502和1 - 0。484 = 0。516分别作为精确度和召回率。类似于RP范围。本地化组件（oLRP IoU）显示，“bus”类的数据库紧密性比“zebra”类的所有数据库紧密性更好即使对于RetinaNet，平均IoU为1−0。106=0。894和d1-0。122=0。878用于“b us”和“z通过这种分析，我们还可以很容易地比较方法和类之间的框的紧密性。相同的mAP但不同的行为，更快的R-CNN与RetinaNet：现在我们比较两个具有相同AP的检测器，以便使用moLRP的组件来识别它们的特征;即RetinaNet（X101+FPN），一个单次检测器和FasterR-CNN（R101+FPN），一个两步检测器。首先，我们使用表1中的框定位组件（moLRP IoU）来区分这两个检测器。MS COCO中使用的标准公制SSD-300SSD-512更快的R-CNN（R50）RetinaNet（R50 + FPN）RetinaNet（X101+FPN）更快的R-CNN（R101+FPN）更快的R-CNN（X101+FPN）精度10K. Oksuz，B.C. Cam，E. Akbas和S. 卡尔坎图5：表示用十字标记的最佳配置的示例RP曲线曲线是针对τ = 0绘制的。5.图中的表格表示方法相对于AP和moLRP的性能。表中的行分别对应于SSD-512、RetinaNet（X101+FPN）和Faster R-CNN（R101+FPN）。注意，与AP不同，LRP的分数越低越好。旨在通过对10mAP值取平均来包括定位误差从1. 这两个检测器的8%差异存在于mAP@0.5中，可以推断RetinaNet似乎产生更紧密的盒。然而，该推断仅通过逐个检查所有10mAP结果是可能的，并且仍然不可能量化该紧密度。相比之下，moLRPIoU直接表明，在表1中的所有检测器中，RetinaNet（X101+FPN）产生最紧密的边界框，平均紧密度为1 − 0。161= 0。第839章在我的眼里其次，我们比较了两个明显不同的探测器的清晰度（图1）。4）. RetinaNet（X101+FPN）产生486、 108边界36， 781个注释，而Faster R-CNN（R101+FPN）由于其RPN方法仅产生127，039个注释。对于RetinaNet，置信度得分为57%的检测值在0以下。1，87%的人在0以下。25（这些值对于Faster R-CNN为29%和56%），这通常会导致RetinaNet在整个召回域中具有比Faster R-CNN更低或相等的精度，除了RP曲线的尾部。在RetinaNet的尾部，由于其大量的结果，它具有一定的精度，即使Faster R-CNN的精度下降到0。图5说明了这种现象，在“斑马”曲线中观察得最好即使RetinaNet具有比Faster R-CNN更高的AP，但0。899比0 880这个AP差异源于大量的RetinaNet检测，这导致了更好的RP曲线尾部。观察到这种浅曲线-较长尾部现象或多或少对50多个类别有效，包括图1中的类别。六、另一方面，oLRP和moLRP并不支持这些类型的探测器，而是更清晰的探测器，如图所示。5，这导致更快的R-CNN（R101+FPN）对于“斑马”类具有更低的最优LRP误差。总的来说，即使RetinaNet具有最好的边界框定位，具有相同AP的更快的R-CNN（R101+FPN）具有更低的平均oLRP误差。此外，考虑到这些变体的RP曲线，Faster R-CNN比RetinaNet更尖锐，如图所示4.第一章这一点也得到了组件的验证12K. Oksuz，B.C. Cam，E. Akbas和S. 卡尔坎具有几乎相等的moLRPFP和moLRPFN的差异，有利于更快的R-CNN。类似地，RetinaNet（R50+FPN）的moLRP FP和moLRPFN都大于FasterR-CNN（R50）的moLRPFP和moLRP FN，这是由于相同的浅曲线-长尾现象，从而防止其 RP 曲线更尖锐。再次，使 RetinaNet（R50+FPN）在mAP和moLRP两者方面具有更好性能的是其产生紧密边界框的强度，如表1所示。6.3更好的阈值，更好的性能在这个实验中，我们展示了一个用例，其中oLRP帮助我们设置类特定的最佳阈值，作为对所有类使用通用阈值的朴素方法的替代方案。为此，我们开发了一个简单的在线视频对象检测框架，其中我们使用现成的静止图像对象检测器（在MS-COCO [14]上训练的RetinaNet-50[13]）并构建了三个不同版本的视频对象检测器。用B表示的第一个版本使用静止图像对象检测器来独立地处理视频的每个帧第二和第三版本，分别用G和S表示，再次使用静止图像对象检测器来处理每个帧，此外，它们使用匈牙利匹配算法[2]链接后续帧的边界框，并使用简单的贝叶斯规则更新这些链接框的分数（补充材料中给出了这种简单的在线视频对象检测器G和S之间的唯一区别是G使用有效阈值0。5（见表2和图2中B的s*）1）作为所有类别的置信度得分阈值，S使用实现oLRP误差的每个类别的最佳阈值我们在ImageNet VID验证集[28]的346个视频上测试了这三个检测器，其中15个对象类也恰好包含在MS COCO中。总线1牛1船10.80.80.80.60.60.60.40.40.40.20.20.2000.20.40.60.81召回000.20.40.60.81召回000.20.40.60.81召回图6：方法的示例RP曲线最佳RP对用十字标记AP与oLRP：我们将G与B进行比较，以表示AP和oLRP的评估观点-参见图1B。 6和表2。由于B是传统的对象检测器，因此具有如图1所示的传统RP曲线。六、另一方面，为了更快，G忽略了一些检测，导致其最大召回率低于B。因此，召回中的这些较短范围在AP评估中设置了一个大问题。在数量上，B超过GBGSBGSBGS精度精度精度LRP：一种新的目标检测性能度量137 .第一次会议。5% AP。另一方面，尽管有限的召回覆盖率，G获得更高的精度比B，特别是通过其RP曲线的结束。为了说明，对于如在图1中的“b 〇 at”c 1。6，G具有在0. 5和0。9召回，即使其AP低6%。由于oLRP比较关于其最佳配置的方法（即巅峰的RP曲线），比较它们的oLRP误差，其中G超过S 4，清楚地解决了这种差异。百分之一。此外，G的优越性是其较高的精度，因为G和S的FN分量非常接近，而G的FP分量为8。6%，这也是其RP曲线峰值的精确度差异。因此，虽然G在AP方面似乎具有非常低的性能，但是对于12个类别，G达到比B更好的峰值，如表2中的oLRP值所示。这表明oLRP在捕获方法的性能细节方面优于AP。表2：B、G、S之间关于AP oLRP及其最佳类别特定配置的比较类别阈值的平均值被指定为N/A，因为阈值是特定于类别设置的，并且不使用平均值注意，与AP不同，LRP的分数越低越好方法飞机自行车鸟总线车牛狗猫大象马摩托车羊火车船斑马是说APBGS0的情况。6810的情况。6210的情况。6450的情况。6300的情况。4450的情况。5350的情况。5470的情况。4920的情况。5000的情况。5650的情况。3980的情况。4850的情况。5550的情况。4170的情况。4190的情况。5870的情况。5100的情况。4920的情况。4630的情况。4160的情况。4340的情况。6010的情况。5680的情况。5690的情况。6610的情况。5880的情况。5890的情况。4730的情况。4410的情况。4440的情况。6020的情况。5710的情况。5730的情况。5610的情况。5470的情况。5450的情况。7130的情况。6000的情况。6090的情况。8290的情况。7690的情况。7920的情况。8160的情况。7650的情况。7820的情况。6190的情况。5440的情况。561oLRPBGS0的情况。6270的情况。6060的情况。6030的情况。7760的情况。7830的情况。7620的情况。7180的情况。6910的情况。6870的情况。7020的情况。7270的情况。6880的情况。7590的情况。7580的情况。7590的情况。6920的情况。6790的情况。6780的情况。7280的情况。7140的情况。7120的情况。7000的情况。6970的情况。6970的情况。6250的情况。6140的情况。6130的情况。7230的情况。6990的情况。7010的情况。6920的情况。6540的情况。6550的情况。6770的情况。6480的情况。6490的情况。5830的情况。5860的情况。5830的情况。5940的情况。5530的情况。5510的情况。4360的情况。4320的情况。4250的情况。6690的情况。6560的情况。651oLRPIoUBGS0的情况。1820的情况。1810的情况。1860的情况。2710的情况。2580的情况。2700的情况。1690的情况。1700的情况。1700的情况。1770的情况。1600的情况。1730的情况。2070的情况。2070的情况。2070的情况。1450的情况。1510的情况。1480的情况。1660的情况。1650的情况。1700的情况。2030的情况。2000的情况。2000的情况。1700的情况。1700的情况。1700的情况。1550的情况。1600的情况。1600的情况。1920的情况。1950的情况。1940的情况。1540的情况。1550的情况。1550的情况。1590的情况。1560的情况。1590的情况。1990的情况。1950的情况。1970的情况。1280的情况。1280的情况。1310的情况。1790的情况。1770的情况。179oLRPFPBGS0的情况。0800的情况。0060的情况。0870的情况。2280的情况。1160的情况。2260的情况。3000的情况。1740的情况。1840的情况。2030的情况。1370的情况。1930的情况。3030的情况。3110的情况。3200的情况。2240的情况。2180的情况。1820的情况。2420的情况。2290的情况。2690的情况。2480的情况。2790的情况。2830的情况。0950的情况。0710的情况。0750的情况。2460的情况。2210的情况。2310的情况。1580的情况。0490的情况。0840的情况。1410的情况。0780的情况。0780的情况。0990的情况。0910的情况。1100的情况。1630的情况。0770的情况。0890的情况。0340的情况。0160的情况。0300的情况。1840的情况。1420的情况。163oLRPFNBGS0的情况。3830的情况。3590的情况。3260的情况。4270的情况。5230的情况。3890的情况。4780的情况。4800的情况。4890的情况。4770的情况。5710的情况。4610的情况。4990的情况。4930的情况。4880的情况。5040的情况。4730的情况。4900的情况。5330的情况。5120的情况。4800的情况。3940的情况。3720的情况。3690的情况。3950的情况。3880的情况。3850的情况。5400的情况。4940的情况。4930的情况。4480的情况。4150的情况。4060的情况。4940的情况。4670的情况。4680的情况。3440的情况。3600的情况。3390的情况。2240的情况。2210的情况。2030的情况。2200的情况。2270的情况。2020的情况。4240的情况。4240的情况。398s*BGS0的情况。380的情况。000的情况。000的情况。310的情况。690的情况。540的情况。440的情况。970的情况。980的情况。270的情况。680的情况。450的情况。490的情况。000的情况。000的情况。610的情况。960的情况。910的情况。420的情况。480的情况。490的情况。490的情况。700的情况。640的情况。490的情况。330的情况。390的情况。520的情况。640的情况。580的情况。450的情况。600的情况。630的情况。510的情况。840的情况。850的情况。410的情况。590的情况。550的情况。450的情况。900的情况。890的情况。310的情况。000的情况。54N/AN/AN/A类别特定阈值的影

下载后可阅读完整内容，剩余1页未读，立即下载