对象检测中利用上下文重新评分的方法及其在AP最大化中的应用

33 浏览量更新于2023-10-25 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14610看而不看：用于AP最大化的对象检测的上下文重新评分LourencoV.第1页lourenco. tecnico.ulisboa.pt雷纳托·内格里尼奥2negrinho@cs.cmu.edu佩德罗·M. Q. 阿吉亚尔1号aguiar@isr.ist.utl.pt1系统与机器人研究所/IST，ULisboa2卡内基梅隆大学摘要目前大多数物体检测器缺乏上下文：类别预测独立于其它检测而进行。我们建议将上下文中的对象检测后处理的任意检测器的输出，以rescore其检测的置信度。通过调节来自整个检测集的上下文信息来完成恢复：他们的信心，预测类，和位置。我们表明，AP可以通过简单地重新分配检测置信度值来改进，使得存活时间更长的真阳性（即，具有正确类和大IoU的那些）的得分高于假阳性或具有小IoU的检测。在这种设置中，我们使用具有注意力的双向RNN进行上下文重新评分，并引入一个训练目标，该目标使用具有地面真实值的IoU来最大化给定检测集的AP。事实上，我们的方法不需要访问视觉功能，使其计算成本低，不可知的检测架构。尽管如此简单，但我们的模型始终在强大的预训练基线（Cascade R-CNN和具有多个主干的Faster R-CNN）上改进AP，特别是通过降低重复检测的置信度（一种学习形式的非最大抑制）并通过调节置信度，类，位置和大小来去除上下文外的对象代码可在https://github.com/LourencoVazPato/seeing-without-looking/1. 介绍当前对象检测器的卷积骨干处理整个图像以生成对象建议。然而，这些建议，然后独立分类，忽略了对象类之间的强共现关系。相比之下，人类使用广泛的上下文线索来识别对象[12]，例如类共现统计和相对对象位置和大小。图1：上下文重评分之前（左）和之后（右）的高置信度检测形成图像的主题。误报降低了它们的置信度（只有行李箱和雨伞在地面真实中）。边界框的线条粗细与其置信度成正比。这一观察激发了我们的工作，在那里我们利用来自整个检测集合的上下文信息来确定要保留哪些检测。Through an error analysis, we observe that current ob-ject detectors make errors that can be mitigated by the useof context. 错误可以归因于两种类型的问题：非最大抑制未能消除重复检测（图3）;以及没有充分利用上下文的本地方法，例如，当对象在视觉上类似于某个类，但其上下文使其不太可能时（图4）。我们首先研究如何在保持相同位置和类别的情况下通过重新评分检测来改善AP（第4.1节）。洞察是，具有较高IoU的检测对于更多IoU阈值计为真阳性，因此应评分更高。这些分数是由地面真实标签的知识引起的，并导致IM。146111. 输入图像2. 检测对象3. 提取特征向量构建序列4. 通过RNN+自我注意力进行推理5.预测新置信度分数图2：上下文重评分方法概述。1-2. 由对象检测器收集一组检测。3. 为每个检测提取特征向量（通过连接其置信度，预测类和坐标）。4.第一章检测由具有自注意力的RNN处理。5. 回归量预测每个检测的新置信度。在MS COCOval2017上提供高达15个AP，用于高性能两级检测器产生的检测给定预测检测和地面实况检测之间的固定匹配，为了最大化AP，最佳的是将等于具有地面实况的IoU的分数分配给每个匹配的预测检测。我们提出了一个模型，使用图像中所有检测的上下文对先前检测器的检测进行重新评分（见图2）。每个检测由具有原始置信度、预测类和边界框坐标的特征向量表示。虽然基线检测器只使用视觉信息，但我们的模型利用了非视觉的高级上下文，例如类同现，对象位置和大小。我们使用具有自我注意的递归神经网络来诱导上下文表征。我们用一个损失来训练，这个损失会推动模型产生分数，使被重新评分的检测集的AP最大化。我们的方法是广泛适用的，因为它不使用视觉或其他检测器特定的功能。MS COCO 2017 [22]的结果（见表2）显示，该模型在基于区域的强基线检测器（Faster R-CNN [27]和Cascade R-CNN [5]）和不同的骨干网络（ResNet-101和ResNet-50 [16]）中将AP提高了0.5到1。虽然改进可能看起来不大，但我们考虑了非常强大的基线，并在其中获得了一致的改进。对重新评分检测的分析（第5节）表明，该模型降低了上下文外和持续检测的置信度，同时保持了正确检测的置信度。图1说明了这一点：假阳性（运动球、盆栽植物和伞）具有降低的置信度，而对真阳性（手提箱和伞）保持高置信度。我们提出了系统选择的其他示例，即，那些总体信心根据余弦距离变化（见附录C）。我们确定了这项工作的以下贡献一种重新评分算法，以最大限度地提高AP给定固定集的预测和地面实况边界框。我们表明，目前的两阶段对象检测器产生的检测，有一个约15AP的改进。一种上下文重评分方法，通过调节所有检测的置信度、类别和位置，为每个检测生成新的置信度。我们的模型使用具有自我注意力的RNN来为每个检测生成上下文表示，并且它被训练来回归AP 最大化的值（即，边界框的 IoU 与地面实况）。2. 相关工作两阶段探测器最先进的物体探测器[15，14，27，5]依赖于两阶段方法：选择可能包含对象的图像区域（例如，使用固定区域规划算法[15，14]或区域规划网络[27]），然后独立地对每个区域进行分类。这些方法不使用非视觉上下文信息。现有方法在后处理中（作为重新评分或细化步骤）[13，8，10，11，30，12，1]或在检测中包括上下文。管道[25，3，23，21，7，26]。现有的工作已经通过多种方法（如逻辑回归[12]、基于可变形部件的模型[13，25]、潜在SVM [30]，二叉树[10]，图形模型[23]，空间递归神经网络[7，26，3]和跳层检测器[0.70;运动球;xywh4][0.90;网球拍;xywh3][0.75;人;xywh2][0.99;人;xywh1]0.80RNN0.92RNN0.20RNN0.99RNNSelf-attention回归器··14612连接[3]。关系网络[20]引入了一个“对象关系模块”，该模块被并入Faster R-CNN以捕获对象间关系并抑制重复。其他工作通过使用RNN来处理视觉特征图来捕获上下文[21，7，26，3]。最近，[2]通过使用从地面事实推断的非视觉上下文对检测进行重新评分来探索上下文的效用。他们考虑了如何通过重新评分来改进AP，并提出了一种基于真阳性和假阳性比率的启发式规则。他们的方法不提供重新评分模型，因为他们以地面实况信息为条件。据我们所知，我们是第一个使用深度学习模型的人，该模型以非视觉特征（置信度，预测类和边界框位置）为条件，对任意检测器生成的预测进行重新评分。此外，我们的模型是用AP最大化的损失来训练的（参见第4.1节），这是基于更好的局部检测应该得分更高的见解而开发的。非最大抑制NMS是消除重复检测的关键组成部分。除了传统的NMS之外，Soft-NMS [4]根据IoU重叠按比例降低置信度，而学习型NMS [18，19]从数据中学习NMS规则。两种学习的NMS方法都使用在评估中使用的相同匹配策略，并且使用加权逻辑损失进行重新评分（即，保持或移除检测）。这种损失并不编码具有更好定位的检测的偏好。NMS方法不会删除不同类别的重复检测（图3右侧）。相比之下，我们的方法对所有预测类，置信度和位置都有条件，因此，我们的模型可以学习类，置信度和位置相关的抑制规则。此外，我们制定了一个回归问题，其中目标是IoU与地面真相，这样更好的本地化检测应该得到更高的分数。在第4.1节中，我们将我们的重新评分方法（匹配和目标）与学习的NMS方法进行了比较，并表明有很大的改进余地（表1）。3. 误差分析我们分析了两个强探测器的误差对于此分析，我们使用MMDetec[6]实现Faster R-CNN [27]和具有ResNet-101 [16]主干的Cascade R-CNN [5]生成的检测骨干是预先训练的ImageNet [28]分类和微调COCOtrain20171上的对象检测。除非另有说明，否则所有未来的分析和示例都将使用COCOval 2017的结果和示例，包括Cascade R-CNN和ResNet-101主干。1有关更多信息，请参阅项目https://github.com/open-mmlab/mmdetection/图3：重复检测说明NMS的失败案例。左图：两个高置信度检测结果与低IoU一致。右图：马和斑马的重叠检测。图4：本地非上下文检测的失败案例。左图：在时钟中检测到香蕉和雨伞。右图：在树背景中检测到的运动球。3.1. 检测误差定位错误和重复检测定位错误发生在预测框具有正确的类但其地面真实值的IoU较低时，或者为同一对象预测多个框时（重复检测）。 NMS会删除其置信度低于具有相同对象类且IoU高于阈值（通常为0）的任何其他检测的检测。7[27]）。不幸的是，NMS无法删除具有低IoU或具有不同类别的重复检测，例如，在图3中，一个人有两条领带（左）和斑马和马的重叠检测（右）。一个学习的上下文NMS程序应该抑制这些误报，因为一个人不太可能有两条领带，一匹马和一匹斑马不太可能完全重叠。在图4中，探测器发现了意外的对象，例如时钟中的雨伞和香蕉（左），以及树上的运动球（右）。学习的重新评分模型应该能够抑制这些假阳性，因为它们在其上下文中的概率较低，例如，通过捕捉类同现。图5展示了14613≤≥滑雪板运动球风筝棒球棒棒球手套滑板冲浪板3.16231.0000背景百分之二十五点八41.4%正确背景百分之二十四点二百分之四十八点三正确网球拍瓶装酒杯杯叉异种百分之八点八百分之五点二百分之十八点八异种类似百分之六点六百分之四点三16.5%刀勺碗香蕉苹果三明治桔子花椰菜胡萝卜热狗比萨饼0.31620.1000类似本地化(a) 更快的R-CNN。本地化(b) 级联R-CNN。甜甜圈蛋糕椅沙发盆栽床/餐桌厕所共现类0.03160.0100图6：Faster R-CNN的置信度分布，Val 2017上的Cascade R-CNN（ResNet-101主干）。• 与不同类别混淆：不同类（不同COCO超范畴）和IoU ≥ 0。1.一、背景混淆：其余的假阳性（IoU <0. 1）。图5：COCOtrain2017中类子集的同现。每个单元格表示图像中的共现类的预期实例数，该图像具有来自所观察的类的至少一个实例。相关物品经常同时出现：滑雪板和滑雪板;棒球棒、棒球手套和运动球;餐具。罕见的共同事件是明确的：运动物品与食物很少共现，床和厕所与其他物品共现较少。存在强烈的对角共现：多个类经常与它们自身同时出现。在这些对角共现中，厕所、床和餐桌相对薄弱。val2017.每个单元格表示在给定来自观察类的实例存在的情况下，在图像中遇到的并发类的实例使用上下文，我们可以利用这些同现，降低意外对象的置信度，并增加可能正确的检测。所有类别共现的图见附录A。3.2. 统计误差分析当前的对象检测器对误报有很大的信心（图6）。我们执行类似于[17]的分析，但是因为我们的重新评分方法不会改变检测，只会改变它们的分数，所以我们改变度量以反映每种类型错误的相对置信度。检测分为五种类型：• 正确：正确的类和位置（IoU ≥0。（五）。定位错误：正确的类但错误的位置（0. 1 lou <0.5）;或正确的位置（IoU0的情况。5），但地面实况已经匹配（重复检测）。• 与同类混淆：相似类（相同的COCO超范畴）且IoU ≥0。1.一、我们通过降低置信度来迭代检测，并将它们与具有最高重叠的地面真值进行匹配，而不管它们的类别（相比之下，AP分别匹配每个在图6中，我们累积了每种检测类型的总置信度（即，较高置信度的检测具有较高权重）。Faster和Cascade R-CNN检测器都在第5.2节中，我们比较了重新评分后的相同分布，并表明我们的重新评分模型降低了假阳性的置信分数（图7）并增加了AP（表2）。4. 拟议办法：上下文重评分我们考虑一个简单的后处理策略：保持预测边界框的类别和位置，仅更改它们的置信度。检测可以通过将其置信度驱动为零来移除。我们表明，给定一组检测和地面实况注释，我们可以对检测进行重新评分，从而大大提高AP（表1）。4.1. 再评分靶AP计算AP在各种IoU阈值（0. 5，0。55，。. .、0.（第95段）。通过要求检测更接近地面实况以被视为真阳性，增加IoU阈值可奖励更好的定位为了计算AP，我们首先通过将每个检测与地面实况进行匹配来确定真阳性和假阳性。COCO的匹配策略按置信度降序对检测进行排序。按照这个顺序，如果满足以下条件，则每个检测都与具有最高IoU的地面真值匹配：它们具有相同的如果没有找到匹配，则检测是假阳性。观察类滑雪板运动球风筝棒球棒棒球手套滑板冲浪板网球拍瓶装酒杯杯叉刀勺碗香蕉苹果三明治桔子花椰菜胡萝卜热狗比萨饼油炸圈饼蛋糕椅子沙发盆栽床/餐桌厕所类的预期实例数··14614Bˆ∈ˆ然后，计算内插的查准率-查全率曲线。从最高置信度检测开始，通过填充对应于检测的运行集合的当前召回率r处的精度p的点来跟踪曲线p（r）。然后，通过将每个召回率水平下的精度重新分配为较高召回率下的最大精度，使该曲线单调递减：pinterp（r）=m ax p（r）。（一）r≥r算法1通过地面真值重叠的贪婪匹配1：输入：预测检测B，地面实况B2：输出：匹配MB×B3：M←4：对于t ∈ {0. 95，0。9、。- 是的- 是的、0. 5}做5：对于b∈B，6：如果b<$/∈B<$（M），则7：Bt，b←{b∈B|class（b）=class（b），b/∈B（M），IoU（b，b）≥t}AP近似插值精度下的面积-通过将插值精度平均为101等间隔的回忆水平。对于给定的类c和IoU，8：如果B不，则B不，则9：b←argmaxIoU（b，b）阈值t，AP由下式给出：AP c= 1p（r，c，t）。（二）b∈Bt，b∈ B t，10：M←M<${（b，b<$）}t101 r∈{0，0.01，...，一个interp平均精度的最终指标是80个对象类和10个不同IoU级别的平均AP，1ΣAP=1000米C.（三）信心IoU 55.4 54.5 52.8 51.010t ∈{0. 5，0。五十五，0的情况。95}80c∈类不二进制48.6 47.6 45.8 44.1AP的贪婪最大化给定一组检测结果定位IoU55.8 54.9 53.4 51.7和地面真相，我们的目标是找到信心，产生最大可实现的AP。为了实现这一点，我们将最大化分为两个步骤：将检测与地面实况进行匹配，并为每个检测。 AP是由以下引起的排序的函数：但不是绝对值。重新评分通过重新排序检测来提高性能，为真阳性分配比假阳性更高的置信度匹配检测与地面真相匹配检测与地面真相是不平凡的，因为几个检测可以参考相同的地面真相。 COCO的AP评估为每个IoU阈值（0. 5，0。55，。- 是的- 是的、0. （第95段）。对于我们的重新评分方法，必须找到一个匹配。一种匹配策略，表1：val2017目标重新评分值的平均精密度。C：Cascade R-CNN ， F ： Faster R-CNN ， 101 ： ResNet-101，50：ResNet-50。这些重新评分结果是根据地面实况和预测计算的，因此它们代表了预言机可实现的改进。最佳置信度值对于固定匹配，最佳重新评分对检测进行排序，使得具有较高IoU的检测这种排序确保了更好的局部检测在AP的匹配算法中具有更高的优先级。我们提出的目标置信度y是IoU，对于真阳性，具有匹配的地面真值，对于假阳性，具有零值：.根据检测的置信度确定检测的优先级，AP会对其进行惩罚当最高置信度检测不是最佳局部化检测时。高置信度检测可能是真实的正态分布。y=IoU（b，b）若B∈B∈M，（四）否则，对于较低的IoU阈值是有效的，但是对于较高的阈值变成假阳性我们提出了一种启发式算法，Al-出租m 1，它优先考虑IoU与地面真相（即，更好的本地化）而不是信任。从最高IoU阈值开始并逐渐减小它（行4），算法在所有基础事实上迭代（行5），并将每个基础事实与来自同一类的未匹配检测集合中具有最高重叠的检测（行9）以及高于阈值的IoU（行7）进行匹配。我们表示已经匹配的预测检测的集合，地面实况检测为B（M）={b|（b∈M），且B（M）={b|（<$b，b<$）∈M}，关于iv el y.匹配目标C-101C-50F-101F-50基线42.141.139.436.4二进制47.846.944.842.914615设n∈G<$b，b<$使得（n，b<$）∈M.目标AP表1比较了获得的基线AP通过Faster和Cascade R-CNN架构（使用ResNet- 101和ResNet-50主干），如果使用所提出的匹配算法和目标置信度重新评分检测，则获得AP。结果是根据预测和地面实况计算的，因此它们仅用于计算训练模型的改进目标。表1中的组合对应于边界框是否与原始置信度或IoU匹配，14616∈我⊕∗我目标置信度是二进制的（如果匹配则为1，否则为0）还是其具有基本事实的IoU。我们的匹配策略（算法1）显示出改进（范围从0。五比一5）优先考虑信心的匹配策略。我们的目标重新评分比学习的NMS方法[18，19]（使用二进制目标和置信度匹配）使用的训练目标好约8 AP，并表明仅通过重新评分检测就可以实现大的改进（高达15在下面的部分中，我们训练了一个使用上下文输入的重评分模型。来预测这些目标置信度。向量ci，由序列中所有隐藏向量的平均值给出，通过比对得分加权：ΣLci=αijhj，（6）j=1其中L是填充前的序列长度，hj是元素j的隐藏向量，αij度量i和j之间的对齐。权重αij由softmax在对齐分数上计算4.2. 模型架构我们将上下文结合到重新评分检测中，αijexp（score（hi，hj））=，（7）ΣLexp（score（hi，hk））k=1由较早的对象检测器（见图2）。检测集被映射到特征序列x RL×N，该特征序列被馈送到我们的模型，该模型计算重新评分的置信度其中score（hi，hj）是测量hi和hj之间的比对的评分函数。我们用比例点-y∈RL. 每个重新评分的置信度由下式生成：product [29]函数作为对齐的度量：以x为条件（即，全部检测）。特征提取一个特征向量包含原始的，score（hi，hj）=胡杰我的天（八）提取最终预测置信度、类别和位置对于图像中的每个检测（参见等式5）。它们一起形成检测集的上下文表示。对于MS COCO，所提取的特征向量是85维（N= 85），检测i由下式给出：Σ Σx y w h回归器我们的模型使用多层感知器（MLP）来预测每个检测的重新评分置信度的值。回归输入是GRU文本矢量C.我们提出的架构包括一个大小为4nh×80的线性层，带有ReLU激活，然后是一个xi=[scorei][one hot（classi）]i，i，i，i，尺寸为80×1的线性层，带有S形激活层，W H W H（五）产生0到1之间的分数。其中，表示矢量连接，xi、yi是检测边界框的左上角的坐标，wi、hi是其宽度和高度，W、H是图像的宽度和高度。特征得分i和类i是de-损失函数我们将重新评分公式化为针对AP最大化激励的目标的回归（第4.1节）。我们使用平方误差：保护置信度得分和对象类别。函数one-hot为对象类创建一个one-hot矢量编码。检测按图像分组并映射到序列L（y，y）=ΣLi=1（yi−y）、（9）通过降低置信度来排序。序列被填充为长度100（检测器通常输出的最大检测数量）。递归神经网络所提出的模型使用双向堆叠GRU [9]来计算两个隐藏状态→−ht和<$h−t的大小为nh，对应于for ward和后向序列，其被级联以产生大小为2的状态向量ht。我们把nr层情报组叠起来。双向模型将每个检测编码为序列中过去和未来检测的函数我们使用self-attention [29]来处理检测之间的长距离依赖关系，这些依赖关系很难单独使用RNN来捕获。对于每一个元素i，自我注意力将整个序列概括为一个上下文。其中y是重新评分的置信度，y是通过算法1和等式4计算的目标序列。5. 实验结果5.1. 实现细节我们在MS COCO [22]上运行现有的检测器，以生成train 2017（118 k图像）的检测用于训练，val2017（5 k图像）用于模型选择，test-dev 2017（20 k图像）用于评估。作为基线检测器，我们使用了MMDetection[27] ResNet-101和ResNet-50 [16]主干。我们在https://github.com/LourencoVazPato/seeing-without-looking上提供了我们的代码，可以轻松地训练模型对任意检214617测器的检测14618基础模型重新评分val2017（5k）测试开发2017（20k）（骨干）APAP50AP75APMAPLAPAP50AP75APSAPLFaster R-CNN（ResNet-50）✓36.437.458.460.039.140.121.621.840.140.746.648.736.737.458.860.239.640.321.621.839.840.444.946.1Faster R-CNN（ResNet-101）✓39.439.960.761.643.043.522.122.443.643.852.053.039.740.161.462.243.243.522.122.143.143.450.250.8级联R-CNN（ResNet-50）✓41.141.859.360.244.845.322.623.144.545.154.856.041.542.060.060.745.245.523.323.544.044.753.154.2级联R-CNN（ResNet-101）✓42.142.860.361.545.946.523.223.946.046.756.357.542.442.961.262.146.246.623.723.945.546.154.155.3表2：重新评分前后的性能结果。APS、APM和APL指的是小型、中型和大型物体。背景背景百分之十九点九异种百分之七点二百分之四点六类似百分之十五点二53.2%正确百分之十九点四异种6.0%相似4.2%百分之十四点八本地化55.6%正确本地化(a) 更快的R-CNN。（b）Cascade R-CNN。图7：累积信心分布对重新评分后的val2017（与图6比较）。表3：重新评分后AP变化最大的类别模型超参数找到的最佳超参数具有隐藏大小nh= 256和堆叠GRU数量nr= 3。我们在附录B中介绍了模型消融当用按置信度降序排序的输入序列训练模型时，它偏向于以相同的降序预测重新评分的置信度，不产生AP的变化。我们在训练过程中以概率0打乱输入序列。75.作为未来的工作，考虑对边界框的顺序不变的模型将是有趣的。训练我们使用Adam，批量大小为256，初始学习率为0。003. 当AP在val2017上处于平台期超过4个时期时（即，耐心超参数），学习率乘以0。2，参数恢复到最佳时期的参数。如果验证AP连续20个时期没有改善，5.2. 与基线的比较表2比较了不同探测器重新校准前后的性能。重新评分的检测结果-形式更好，持续改进，0.4 至 1 AP 。更大的对象实现更大的改进（PCAAPL>PCAAPM>PCAAPS）。定位不良的检测具有较大的AP改善（AP50> AP75）。在图7中，我们比较了每种错误类型的总累积置信度，通过在重新评分前后添加val2017中所有检测的置信度获得正确的检测在总置信度中所占的份额增加。背景和定位误差有很大的减少。表3示出了具有ResNet-101主干的级联R-CNN的AP变化最大的类。其他探测器见附录B。大多数班级显示出显著和一致的AP增加。跨架构和主干的泛化不同的架构具有不同的错误特征。为一个检测器训练的重新评分模型应该有望推广到其他检测器。表4比较了通过使用在一个检测器上训练的模型和在不同检测器上评估的模型获得的AP增加。尽管在使用不同基线进行测试时，改进幅度并不大，但所有模型都显示出一致的改进。顶级正类ves∆AP顶级负类 es∆AP面包机+3.2酒杯-0.4沙发+1.7人-0.3热狗+1.6香蕉-0.3飞盘+1.4大象-0.3微波+1.4时钟-0.3棒球棒+1.4斑马-0.2苹果+1.3网球拍-0.2三明治+1.2自行车-0.1披萨+1.1总线-0.1蛋糕+1.1长颈鹿-0.114619培训培训2017在F-50和F-101上评估（val201C-50第七章）C-101F-50+1.0+0.6+0.6+0.5F-101+0.8+0.5+0.5+0.5C-50+0.5+0.1+0.6+0.6C-101+0.5+0.3+0.5+0.7表4：使用不同检测器（Faster R-CNN和Cascade R-CNN）和不同主干（ResNet-101和ResNet-50）训练的模型的AP增加。5.3. 消融训练目标表5比较了我们的模型在使用二元目标和我们提出的IoU目标进行训练时所实现的AP。AP中的差异证实了使用具有基础事实的IoU更好地与AP保持一致，并产生更高的改进，如表1所示。图8：重新评分后的检测。重复检测被抑制（与图3相比）。目标C-101C-50F-101F-50基线42.141.139.436.4二进制42.541.639.637.3IOU42.841.839.837.4图9：重新评分后的检测。假阳性有表5：COCOval2017上二进制和IoU训练目标的平均精度特征重要性表6通过使用所有特征的子集训练模型来探索特征重要性。最重要的特征是原始置信度，而最不重要的特征是边界框坐标。不使用原始置信度会使AP降低2.2。conf.类坐标val2017AP基线42.1所有特征✓✓✓42.8没有坐标✓✓42.4没有课✓✓42.3不信任✓✓39.9公正的信心✓42.2表6：特征重要性。原始信心对绩效的贡献最大。基本上被抑制（与图4相比）。6. 结论当前检测器对上下文的使用是次优的，例如，在两级检测器中，每个区域被独立地分类。此外，NMS是一种启发式算法，无法删除具有低IoU或不同类的重复项我们观察到，为了优化AP，具有更好的局部化的检测必须比局部化差的检测或误报得分更高。AP的大幅增加可以仅通过重新评分检测来获得。我们训练了一个上下文重评分模型，该模型由一个双向GRU和一个回归变量组成，该双向GRU具有自我注意力，该AP最大化目标位于MS COCO上。实验表明，该模型提高了AP，并降低了不同基线检测器上误报该模型通过仅利用图像中所有检测的置信度、类别、位置和大小等非视觉上下文，将性能提高了0.5到1 AP。这项工作得到了LARSyS - FCT Plurianual 2020-2023年资金的部分支持。我们感谢匿名评论者提供的有用意见。14620引用[1] Noa Arbel，Tamar Avraham，and Michael Lindenbaum.场景内部相似性作为物体检测的上下文线索。arXiv：1707.04406，2017年。[2] 以笏巴尼亚和阿哈德本沙哈。探索用于对象检测的上下文的效用的界限。在CVPR，2019年。[3] 肖恩·贝尔角Zitnick，Kavita Bala和Ross Girshick。内外网：用跳跃池和递归神经网络检测上下文中的对象。在CVPR，2016年。[4] 纳瓦尼斯·博德拉巴拉特·辛格拉玛·切拉帕和拉里·戴维斯。Soft-nms–improving InICCV，2017.[5] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN：深入研究高质量的对象检测。在CVPR，2018年。[6] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu ， Zheng Zhang ， Daizhi Cheng ， ChenchenZhu，Tianheng Cheng，Qijie Zhao，Buyu Li，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，Jingong Wang，JianpingShi，Wanli Ou，Chen Change Loy，and Dahua Lin. MM检测：打开mmlab检测工具箱和基准测试。arXiv：1906.07155，2019。[7] 陈新蕾和Abhinav Gupta。用于对象检测中上下文推理的空间记忆InICCV，2017.[8] 陈哲，黄少立，陶大成。用于对象检测的上下文细化。在ECCV，2018。[9] 赵永勋、巴特·冯·梅里·恩波、卡格拉·古尔切尔、费特希·布加雷斯、霍尔格·施温克和约瑟芬·本吉奥.使用RNN编码器-解码器学习短语表示用于统计机器翻译。arXiv：1406.1078，2014。[10] 崔明，约瑟夫·林，安东尼奥·托拉尔巴，艾伦·威尔斯基.在对象类别的大型数据库上利用分层上下文。CVPR，2010。[11] 拉玛赞·辛比斯和斯坦·斯克拉罗夫使用基于集合的分类的上下文对象ECCV，2012年。[12] Santosh Divvala ， Derek Hoiem ， James Hays ， AlexeiEfros，and Martial Hebert.物体检测中语境的实证研究。CVPR，2009。[13] Pedro Felzenszwalb，Ross Girshick，David McAllester，and Deva Ramanan.使用区分性训练的基于部分的模型进行对象检测。TPAMI，2009年。[14] 罗斯·格希克。快速R-CNN。在ICCV，2015年。[15] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[17] Derek Hoiem 、 Yodsawalai Chodpathumwan 和 QieyunDai。诊断物体探测器错误。ECCV，2012年。[18] Jan Hosang，Rodrigo Benenson，and Bernt Schiele.非最大抑制的一种方法。在2016年德国模式识别会议上[19] Jan Hosang，Rodrigo Benenson，and Bernt Schiele.学习非最大抑制。在CVPR，2017年。14621[20] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络在CVPR，2018年。[21] 李嘉楠，魏云超，梁晓丹，董健，徐廷发，冯佳世，严水城。用于对象检测的注意上下文。IEEETransactions on Multimedia，2016年。[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C.劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV[23] Yong Liu，Ruiping Wang，Shiguang Shan，and XilinChen.结构推理网：使用场景级上下文和实例级关系的对象检测。在CVPR，2018年。[24] Minh-Thang Luong，Hieu Pham，and Christopher Man-ning. 基于注意力的神经机器翻译的有效方法在EMNLP，2015年。[25] Roozbeh Mottaghi，Xianjie Chen，Xiaobao Liu，Nam-Gyu Cho ， Seong-Whan Lee ， Sanja Fidler ， RaquelUrtasun，and Alan Yuille.背景在野外物体检测和语义分割中的作用。CVPR，2014。[26] Jimmy Ren ， Xiaohao Chen ， Jian-Bo Liu ， WenxiuSun，Jiahao Pang，Qiong Yan，Yu-Wing Tai，and LiXu.使用循环滚动卷积的精确在CVPR，2017年。[27] 任少卿、何开明、罗斯·格尔希克、孙健。更快的R-CNN：朝向利用区域建议网络的实时对象检测。2015年，在NIPS[28] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. ImageNet 大规模视觉识别挑战。IJCV，2015年。[29] Ashish Vaswani，Noam Shazeer，Niki Parmar，JakobUszko-reit ， Llion Jones ， Aidan Gomez ， LukaszKaiser，and Illia Polosukhin.注意力是你所需要的。在NIPS，2017年。[30] Ruichi Yu，Xi Chen，Vlad Morariu，and Larry Davis.背景选择在目标检测中的作用。arXiv：1609.02948，2016年。

下载后可阅读完整内容，剩余1页未读，立即下载