上下文对目标检测的应用范围及效益

185 浏览量更新于2023-10-18 收藏 655KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1探索上下文在目标检测中的应用范围以笏巴尼亚和阿哈德本沙哈部以色列Beer-Sheva本-古里安大学计算机科学系{barneaeh，ben-shahar}@ cs.bgu.ac.il摘要对象出现的循环上下文包含有价值的信息，可以用来预测它们的存在。这种直观的观察确实导致许多研究者赋予基于外观的检测器关于上下文的外显推理。基本的论点表明，更强的上下文关系将有助于更大的提高检测能力。然而，在实践中，在许多情况下观察到的改善充其量是最温和的，并且通常只是边际的。在这项工作中，我们试图提高我们对这一现象的理解，部分是通过追求相反的方法。我们不是试图通过使用上下文来提高检测分数，而是将上下文的效用视为优化问题：通过考虑上下文或任何其他种类的附加信息，检测分数可以提高到什么程度？通过这种方法，我们探索的边界上的改进，通过使用对象之间的上下文关系，并提供了一个工具，用于确定最有帮助的。我们表明，简单的同现关系往往可以提供很大的收益，而在其他情况下，一个显着的改善是根本不可能或不切实际的同现或更精确的空间关系。为了更好地理解这些结果，我们分析了上下文处理不同类型的错误检测的能力，揭示了测试的上下文信息不能改善定位错误，严重限制了其收益。这些和其他见解进一步加深了我们对利用上下文进行对象检测成功和失败的原因的理解。1. 介绍从历史上看，物体检测是通过在图像上“滑动”一个窗口来执行的自然，这种类型的计算只考虑对象基于卷积神经网络的当代检测器能够因为神经元的感受场随着深度而增长，最终覆盖整个图像，所以他们的推理扩展到局部背景然而，这种网络能够在多大程度上纳入上下文仍然没有完全理解[23]。为了改进这两种类型的检测器，许多工作试图将其结果与上下文推理明确地结合起来，以加强在有利的上下文中出现的检测，并削弱在不利的上下文中出现的检测（其中，参见[9，2，20，16，25，32，31，6，24，8，30，26，18，1]）。这些方法在某些情况下显示出显着的收益[24]，但在许多其他情况下，上下文信息的显式应用显示出微不足道的改进（甚至减少了结果）[35，33]。这个问题首先由Wolf和Bileschi [32]讨论，表明可以使用从低级别特征学习的上下文来代替基于外观的检测器，但是当与基于外观的检测器组合时几乎没有帮助。为了解释这种行为，他们观察到只有少数样本在脱离背景的情况下高度自信。然而，我们仍然没有任何见解，关于何时可以预期环境会改善，以及在许多情况下观察到的缺乏改善是否应该归因于(1)提取上下文信息的能力有限，（2）所采用的上下文关系，（3）将其与基于外观的置信度或其他相结合的困难，（4）一旦考虑了外观信息，上下文信息就只是冗余的。为了研究这个问题，我们提出了一种新的方法来计算上界的改进，可以通过结合检测的基础置信度与不同的在这个公式中，检测可替换地，它可以是二元的，将检测分离为上下文关系保持的检测和上下文关系不保持的检测（例如，关系“旁边是一个人”将检测分为两组）。应用此方法，我们能够识别具有最大改进边界的上下文关系，因此74127413FP数量(a)（b）（c）（d）图1.对检测结果进行排序以评估检测结果（较暗的颜色表示每个箱中真与假检测的较高比率#TP为了通过平均精确度（AP）评估检测，置信度空间首先被离散化为具有相等数量的真实检测（a）的箱，然后通过降低置信度（b）对真实检测进行排序，以计算不同召回水平下的精确度当还采用上下文时，置信度和上下文的空间类似地被离散化为具有相等数量的真实检测（c）的箱，并且需要用于它们的排名的标准。我们证明了在这个空间上的非参数函数，根据它们的真与假检测的比率对仓进行排名，如（d）所示，提供了最大的AP。提高检测结果的潜力更大。同样，我们确定对象类别，没有相关的上下文关系提供了一个大的改进范围。对于这些类别的上下文是没有意义的，即使它是准确和完美地提取与基础检测器提供的信心相结合为了更好地理解为什么使用某些关系无法改善，我们展示了哪些类型的错误检测可以通过使用上下文来纠正。具体来说，我们分析了上下文关系的能力，区分真正的检测和不同类型的错误检测（即。局部化错误、类别之间的混淆以及与背景的混淆[17]）。该分析表明，虽然对象关系形式的上下文可以识别与背景的混淆以及类别之间的混淆，但在大多数情况下，它不能区分真正的检测和定位错误，通常使其无用。这种无法处理定位错误意味着在有利的背景下加强检测也会加强定位错误，这一观察可以解释为什么背景有时会损害检测结果。总之，我们的论文中研究的各个方面讲述了一个关于上下文检测的故事。在少数情况下，上下文可以提供非常显著的改进，在大多数其他情况下，如果正确使用，它可以提供有意义的改进，而在某些情况下，上下文根本不是信息性的（不能区分任何类型的真检测和假检测在所有情况下，当需要更准确的定位时，采用上下文的益处减少。这篇分析论文的目标是进一步理解语境的作用，并提供一种工具来识别最有希望的语境关系，它们可以提供的最大改进，以及将受到最大/最小影响的对象类别（如果有的话）。2. 基于上下文的检测研究背景及综述各种上下文关系已被用于对象检测，范围从检测窗口外的局部上下文已经提出了不同的模型来将这种背景与基于外观的分数相结合，采用概率模型[14]，判别分类器[6]，以及最近的递归神经网络（RNN）[2]和神经注意力模型[20]。由于这项工作的重点是模型的结果，而不是方法，我们建议读者Mottaghi等人。[24]第10段。尽管多次尝试，但在各种情况下都对目前的结果表示不满。Yao和Fei-Fei [33]提出，Choi等人[4]声称PASCAL数据集[11]不适合测试基于上下文的对象识别算法，因为它的大多数图像只包含单个对象类。然而，当使用更具弹性的SUN 09数据集[4]时，两种情况下纳入上下文后的改善相似（AP 比PASCAL 增加1.05，比SUN 09增加1.31）。在上下文选择的研究中，Yuet al. [35]注意到Yu表明，上下文关系可以预测对象的位置，并且某些关系比其他关系更具预测性。然而，这些观察结果并不能证明当与相当好的检测器结合时上下文的效用，由于缺乏脱离上下文的置信错误检测，这被证明是可以忽略的[32]。7414平均精密度变化（AP）为了更好地理解上下文模型的状态，我们研究了12篇论文[5，2，20，4，35，9，3，16，24，6，8，34]在不同的检测数据集（PASCAL10VOC [11]、SUN 09 [4]、SUN RGB-D [29]和MSRC-218[28]）。我们收集的结果从论文中，其中基地检测器9月4日报告了一个检测窗口（AP上下文每个类别都有，没有额外的2与上下文无关的算法改进。然后，我们计算了所有的改进，由于该ESTA-0通过取APcontext-APbase的差来区分上下文。−2这些改进（和偶尔的挫折）是总结，虽然每种方法的结果都是-4在补充材料中提供。检查不同的方法，大多数论文显示通过上下文对象类别模式类似于Choi等人的方法。[4]在PAS- CAL（图）。2蓝色）。特别是，一些对象类别表现出显着的改善，一些只显示边际改善（这是在这项工作中定义为增加小于2 AP单位1），和其他遭受减少检测结果。图2显示，将相同的方法应用于SUN 09数据集（包含更多的对象，因此直观上具有更多的上下文信息[4]）会导致类似的结果模式（橙色曲线），尽管具有更大的方差（即，更大的改进，但也有更大的不理想的结果）。话虽如此，选定的作品显示了不同的结果模式，在大多数对象类别中有显着改善[6，24，16]，甚至在所有或它们（绿色曲线）[3]。为了显示每个对象类别的上下文的效用，我们总结了PASCAL 2007-2010中不同算法的改进。3 .第三章。如图所示，虽然大多数方法在少数对象类别（瓶子、马、飞机、火车和猫）上获得了实质性改善，但对于大多数类别，大多数方法获得的改善小于2个AP单位。然而，对于每个类别，存在实现检测结果的显著增加的方法。因此，尽管无论类别如何都可能有实质性的改进，但通过应用单一方法来获得这种一般性的改进是相当具有挑战性的。3. 语境效用的界定在本节中，我们提出了一种方法，用于找到最佳的非参数函数，该函数结合了基于外观的检测器的置信度得分和其他信息（在这种情况下：（1）使AP最大化。我们假设我们给出一组检测{x1，...，x n}，其中每个检测x i=（confi，label i，loc i，ctx i）被解[1]当然，没有明确的被认为是实质性的改进。我们认为，2 AP阈值似乎是合理的，但在社会上的许多人强调，这确实是主观的，并没有在本文中提出的结论取决于一个严格区分结果高于和低于这个阈值。图2.纳入背景后，每类检测结果的改善（或变化）。对于每种方法，报告每个对象类别的平均精度变化（其中类别在方法内排序，因此可以在每个方法或数据集中沿X轴大多数方法遵循Choi等人的模式。[4]，其中变化有时是积极的和实质性的（红线以上），或积极的但不太实质性的（红线以下），它也可以是消极的。不同型号的改进汇总86420−2−4图3.通过PASCAL数据集采用不同方法合并上下文后，通过平均精度测量的检测结果改善（或变化）的箱形图框内的橙色条表示每个类别的方法的上下文相关变化的中位数。框的顶部和底部边缘以及延长线的端点都表示不同的四分位数。可以看出（另见补充材料），只有少数对象类别被大多数方法显著改善（即，超过2个AP单位，或在红线以上）。通过其位置LOCi、对象类标签Labeli、由基本检测器分配的基本置信度Confi以及表示检测的上下文的值CTxi来ctxi可以是一个布尔值，指示某个二进制上下文Choi等人（PASCAL 2007）Choi等人（SUN 09）Chen等人（PASCAL 2007）平均精密度变化（AP）结果下降结果下降改进的结果改进的结果1267415POS10我MM嗯嗯关系式对于xi成立，例如，它可以指示在检测x1的左边是否有人。或者，它可以是一个实数值，表示xi的上下文支持其标签分配标签i的程度。形式上，ctxi可以表示我们可能希望采用的关于xi的任何种类的附加信息，以便改进检测结果。我们将问题公式化为基于上下文的检测重新评分，类似于大多数以前的模型[9，6，1，35]，并将上下文模型定义为计算新的AP的计算是基于根据检测的置信度对检测的排序在实践中，通过根据置信度递减对检测结果进行排序来对检测结果进行排名从开始到结束迭代排序的检测，每个等级的召回率随着遇到的每个真实检测逐渐增加1，其中POS是阳性示例或对象的数量。因此，示例召回值1对应于某个置信度，使得每次检测的scoreconf′更可信的检测的数量是POS的十分之一，或POS。类似地，召回1对应于POS真10米confi = g（confi，ctx i）。（一）检测，召回m对应于2POS真实检测-首先，我们描述了基于con-p的AP计算等等。因此，考虑m等间距回忆水平[1，2，...， m]，每个级别对应于POS嗯嗯嗯信度箱（如图所示）1 a，b）和非参数函数g，最大化它给定的检测和它们的上下文，在图中举例说明。1 c，d.首先，假设ctxi是实值，并且对于ctx i，没有许多检测共享相同的输出，如通常可以从图像数据上的标准参数函数预期的那样。稍后，我们处理除了以前的水平，真正的检测。我们遵循类似于PASCAL 2007的程序，没有插值，并将AP定义为一组m个召回水平[1，2，...，m]：1Σm其中许多检测可以被分配有完全相同的值CTxi的一般情况。这使我们能够进行实验AP=M i=1皮岛（三）与基于地面实况信息的二元上下文关系，但正如我们所示，g的相同定义并没有正式最大化AP，但可以被认为是一个启发式的。在此之后，我们用不同的同现和空间上下文关系以及最先进的检测器进行实验，通过采用每种关系来显示AP的最大可能改进，然后提供证据表明，所建议的启发式算法准确地近似了一般情况下的最大AP。3.1. AP的基于Bin的表示这m个增加的召回级别对应于m个减少的置信度值c1，.，将实际置信范围[Cm，∞）离散为m个置信区间。每个置信区间包含相等数量的真检测t=POS。我们注意到，置信度值不一定是等距的，并且pi= 0被设置为由于错过对象而无法获得的召回水平这种离散化如图所示。1 a和图中相应的召回。1 b.让我们用t i，f i表示在bin i中的真检测和假检测的数量。现在可以根据置信区间类似地表示AP对于给定的对象类别，检测器的性能通常使用平均精度进行评估AP=1ΣmΣij=1tjΣ、（四）(AP)为检测器的分级输出检测计算的度量。AP指标总结了preci的形状，mi=1我j=1（tj+fj）- sion/recall曲线，描述检测器并且由于bin具有相等的ti=t值：回忆的水平具体而言，精度被定义为给定秩以上的所有检测的分数，这些检测来自AP=1Σm它Σi.（五）正类，并且召回被定义为排名在该排名之上的正检测而mi=1it+j=1fjAP代表精度值的平均值，其计算方法略有不同[10]。在PASCAL VOC 2007中，它被定义为在一组11个等距召回水平[0，0.1，...，1]：3.2. 上下文的实值表示非参数函数g：R2→R定义在检测1）将其输入域离散化为2D箱并分配新的置信度值，AP= 1Σ11pi，（2）用户根据其所落入的输入仓进行检测。非参数函数的定义需要11i=1利用精度值Pi的插值。我们注意到，虽然AP在范围[0，1]内，但在本文中，为了清楚起见，我们报告了[0，7416M100]之间的AP为了定义这种离散化，即，其边界值垃圾箱由于AP的计算将置信空间离散化为m个区间，因此我们类似地将上下文值的范围离散化为具有相等数量的真实检测POS的m个区间。这样，g的仓与AP的仓重合。7417M1Mfifi为此，我们首先将置信轴离散化为m1个具有POS阳性的bin，然后类似地将每个置信bin的上下文轴离散化为m2个bin，每个bin具有AP在Eq. 4和方程式5可以看到作为精确率/召回率曲线下的面积的近似值，作为具有高度为pi的矩形的黎曼和，POSm1m2 积极的。在这种情况下，箱子的总数是宽度相等1. 作为一个概括，我们考虑一个近似-m=m1m2。这一过程的结果举例说明在图1杯在这种离散化之后，g的定义需要为每个bin分配新的置信度值（或者更确切地说，在其内部进行检测）。针对g的结果的AP的计算开始于根据该新置信度的检测的排序。正因为如此，重要的不是由g分配的精确值，而是它们引起的排名，或者更具体地说，g因此，问题是哪个bin排名提供最大AP以及如何找到它。在Eq. 五是不断提高召回率。可以看出，通过增加错误检测的数量fi来排序的仓使AP最大化，因为通过用更大的fj项切换fi项，一些和的除数将变得更大，从而减小AP。因此，我们将分配给bini中的检测的新置信度定义为ti，如图所示。1c，d. 由于ti对于每个i都是相等的，所以当错误检测的数量增加时，置信度降低，从而提供使AP最大化的排名重要的是要注意，所提出的方法最大化AP对于给定的离散化。g的更复杂的分箱方案也可以具有相同数量的真实检测，同时提供更大的AP，但是在这项工作中，我们选择考虑更标准的离散化方案。最后，我们注意到，形成m的参数m1、m2是根据AP计算中所需的召回箱数预先确定的选择 m= 11 对应于类似于PASCAL 2007的采用11个召回箱的计算，并且最大m对应于针对每个真实检测使用召回箱的较新的PAS-CAL版本（m=POS）。3.3. 上下文的一般表示在若干真实检测的上下文值相同的情况下，它们可能不可能用阈值来划分在这种情况下，不能确保离散化成具有相等数量的真实检测的箱，以及AP的准确计算。在实践中，当只有很少的真实检测是不可分的时，结果可能不会受到高度影响，但是当存在许多这样的真实检测时，这可能成为问题。虽然这样的结果可能是不太可能与经常使用的实值上下文函数在以前的作品和SEC。3.2，它确实发生在使用二元上下文关系时，正如我们在3.4节中用于实验的那样。在本节中，我们处理任意离散化下的非参数函数g的一般情况，其中每个bin中的真实检测的数量可能会有所不同。基于高矩形Riemann和的模拟pi和不同的宽度ri。对于召回级别[r1，.， r m]，则我们定义r i=（r i− r i−1），其中r1= r1，并将AP表示为：ΣmAP=p ir i.（六）i=1新的信心，我建议在第二节。3.2通常不会最大化此AP。例如，我们考虑一个有三个仓的函数，使得t1= 277，t2= 371，t3= 69，并且f1= 16，f2= 955，f3= 178，此时所有正的数量为POS=t1+t2+t3。在这种情况下，分配的置信度值为17。3，0。3884，0。3876，重新排序，这导致提供了一个AP60.9.然而，切换第二箱和第三箱的置信度值提供了具有较大AP的排名，62.6.因此，在一般情况下，我们认为这个新的信心作为一个启发式的AP的最大化虽然并不总是能达到最大AP，但我们在第3.4它可能提供AP的准确近似值3.4. 探索对象之间的关系使用这个框架，我们现在可以检查AP的上限为不同的同现和空间语境关系，其中一个单一的关系被认为是在每个实验。然后，我们探索的关系，提供最高和最低的AP上限每个对象类别，并提出各种见解。具体地说，我们用同现关系（例如，ctxi表示对于检测xi，鼠标是否存在于图像中而不与xi重叠），空间关系（例如，ctxi指示鼠标是否存在于相对于xi的特定图像位置中）、随机上下文（ctxi是随机二元数）或无上下文（对于任何i，ctxi= 0）。空间关系的计算方式不变的对象大小和图像的位置，通过检查每个对象的中心点，在一个参考帧为中心的xi与箱的大小被确定为一个因素的高度xi（见图4）。由于这些关系的不同组合可能更有意义，因此对于每个对象类别，我们还使用50个最佳改善关系中的和/或对进行实验。更具体地说，对于二进制关系rel1和rel2，我们包括二进制关系rel1<$rel2和rel1<$rel2。我们使用Faster R-CNN检测器[27，19]在包含80个对象类别的COCO [21]验证集上提供的检测结果来如果检测与地面实况对象重叠，且交集大于并集，则检测被认为是正确的/真的7418图4.检测的空间背景（绿色）相对于其位置和高度确定。在这种情况下，上下文关系“bin [0，3] has mouse”的值(IoU)超过0.5。烤面包机和吹风机是ignored由于他们很少露面。我们假设每个检测的上下文是已知的，并且当然，在现实世界设置中，所获得的AP将低于所计算的界限，因为上下文将不是完美的。作为函数g的离散化方案，基本置信度值被分成10个二进制，并且全部为二进制的上下文值自然地被分成2个二进制。对于每个对象类别和上下文关系，我们找到AP上限，并将最佳关系定义为具有最大上限的关系。然后将最大可获得的改进定义为最佳关系的AP上界与没有上下文的上界（ctx i = 0）之间的差我们生成一个详细的报告，其中包含- ING每个对象类别的最佳上下文关系以及最佳关系的改进量。在空间的兴趣，我们提出了显着的例子，然后显示数据的汇总形式。报告全文见补充材料。可获得最高改善的两个类别是热狗和手提箱，分别改善了4.7和5.5 AP单位，而改善最少的两个类别是斑马和猫，分别改善了1.5和1.6 AP单位。这些类别的最佳关系是“图像有一个人和另一个热狗”对于热狗，“图像有一个 -其他行李箱” 对于行李箱，“bin [0 ，-1]（左）有一个斑马或bin [0，2]（右）有一个斑马”对于斑马，和“图像有一个碗或另一只猫”对于猫。注意，检测中心定义bin [0，0]，如图所示。4.第一章有趣的是，对于70%的类别，最佳关系仅由共现信息（没有bin位置）组成，并且当采用更严格的0.75 IoU（in.而不是0.5），这一比例下降到45%。因此，可以简单地通过识别和利用图像中其他对象的存在来获得显著的改进，但不幸的是，当定位误差的数量增加时，这种信息变得不那么汇总结果如图所示。5、对语境的使用提供更一般的见解。蓝色曲线表示每个对象类别可获得的最大改善可以看出，大多数类别的最大改进在红线以上，该红线标志着至少2个AP单位的改进，但请记住，计算的边界是基于最佳函数g的，并且假设上下文是已知的。因此，对于许多对象类别，在实际条件下可能获得的最大改善预计会更低，甚至可能最多是微不足道的。由于依赖于地面实况信息，该方法将总是产生改进，并且可能不合理地增加其测量量。因此，我们通过检查采用随机上下文获得的改进来测试这种方法中的噪声更具体地说，我们显示了随机生成的二进制上下文（黑色曲线）的10次试验的平均改善。可以看出，黑色曲线明显低于蓝色曲线，表明当前噪声没有大的影响。我们进行了一个额外的实验，如图中的蓝色曲线。5，但这一次采用了更严格的本地化标准，0.75借条结果可以在绿色曲线中看到，它现在明显低于蓝色曲线，并且与基于随机上下文的黑色曲线非常相似。在大多数情况下，最佳观测改进急剧下降，这表明当需要更准确的定位时，对象关系不适合。节中4我们表明，上下文是根本无法处理本地化错误，解释这种下降。除了COCO和Faster-RCNN之外，我们还使用SSD检测器[22]在包含自动驾驶道路场景的KITTI数据集[15]上重复相同的实验汽车、行人和骑自行车者的最大改善在定位标准为0.75 IoU的情况下，改进减少到0.7、1和1.2 AP单位。在这种情况下，对象关系的重要性要小得多，并且在更严格的本地化中仍然观察到类似的下降对于汽车没有观察到下降，但这可能是由于已经大量的强定位错误（召回时低于0.1的错误中有83%是由于定位）。最后，为了测试3.3节中提出的启发式算法最大化AP的能力，我们试图通过检查所有的bin顺序来获得更好的对于每个对象类别，我们重新访问提供最高AP上限的关系，并重新计算箱的任何排列的AP。为了允许这样一个昂贵的程序，我们离散的信心，7419最大限度地改善环境54321对象类别图5.每个对象类别在任何类型的上下文（蓝色和绿色）和随机二进制上下文（黑色）下可以获得的最大AP改进。X轴类别根据蓝色曲线进行排序，蓝色和黑色曲线基于0.5 IoU的重叠标准，而绿色曲线表示需要0.75 IoU的更严格情况。转换成5个二进制而不是10个二进制，并且由于所测试的上下文是二进制的，所以上下文仍然被离散化为2这需要检查10个！bin组合。检查针对COCO数据集中的78个对象类别中的每一个所发现的最大AP上限揭示了基于我们所建议的启发式的AP对于大多数类别确实是最大的，除了其中它提供比最大值低至多0.17的可忽略量的界限的几种情况之外（其中AP在这里被报告在0和100的范围之间）。这一结果提高了我们的信心，即根据真假检测的比率对输入箱进行排序很好地接近最大AP。4. 分级能力分析当给出检测器的结果时，我们有理由想知道上下文到底需要什么来改进它们。将上下文的作用视为加强真实检测和削弱错误检测通常可能是正确的，但仅此一点是没有信息的。上述方法使得能够分析使用不同的上下文关系可以预期的收益，但是它几乎没有解释为什么上下文在某些情况下可能是有帮助的而在其他情况下是没有帮助的。在本节中，我们将上下文的作用视为区分具有类似基础置信度的真检测和假检测的一种手段。然后，我们遵循一个直观的实验，以表明通过测量上下文的能力，以分类强真和假检测。上下文对一组检测结果的直接影响在比较图1时变得明显1a和图1杯在前者，将具有相似基本置信度的检测分组到箱中，并且箱内的真检测和假检测的分布确定AP。在后者中，引入了额外的考虑到所有的事情，上下文的作用因此是进一步分离具有类似基础置信度的检测为了更直观地理解为什么上下文有帮助，我们分析了上下文对由相同数量的真检测和假检测组成的一组强检测进行分类的能力由于较大重叠阈值的改进令人沮丧地减少，5），我们考虑不同类型的错误检测。我们遵循Hoiem等人的检测误差分析。[17]并定义了三种错误类型-本地化错误、与其他类混淆以及与背景混淆。定位误差被定义为具有与IoU重叠大于0.1的最重叠地面实况对象匹配的标签的检测。与其他类别的混淆是指最重叠的地面实况对象重叠超过0.1但具有不同标签的检测。最后，与背景的混淆是错误的检测，其中没有地面实况对象重叠超过0.1。为了测试上下文关系对某些对象类别的分类能力，我们收集了上述错误类型之一的n个最有信心的真检测和n个最有信心的假检测数字n被定义为（给定错误类型的）真检测和假检测的可用数量之间的最小值一个二元关系分离的2n检测到两组包含不同数量的真和假检测。将上下文视为分类器，如果其组包含大多数真实检测，则将每个检测标记为真实，否则标记为错误。为了衡量分类的健康性，我们采用了分配标签的准确性，并注意到由于我们在此分析中使用了地面实况信息，因此最小可获得的准确性为0.5。我们采用的上下文关系中描述的第二节。3.4在COCO上更快的R-CNN上对于每一个对象类别，我们报告的最大精度获得的任何关系（见图。（六）。可以看出，同现和空间上下文更好地分类，即。当错误仅仅是由于与其它类别的混淆时，而不是当错误仅仅是由于与背景的混淆时，区分真检测和假检测虽然它有一定的能力，以区分真正的检测和定位错误，它是显着较低，并没有太多的0.5以上的阈值在大多数情况下。这可能是当将本地化阈值增加到IoU为0.75时，基于上下文的改进显著下降的根本原因，如图12中的绿色曲线所示五、它还影响标准IoU为0.5时的改进（如蓝色最佳条件最佳上下文（重叠>0.75）随机上下文平均精密度变化（AP）74201.00.90.80.70.60.5区分真假检测对象类别上下文根本没有提供信息。除了所报告的AP之外，不能以不同方式处理真实检测和定位误差可能具有进一步令人沮丧的特性。由于上下文模型通常被定义为增加有利上下文中的检测的置信度，因此这同样适用于定位误差。这个问题，以及模型通常在与AP不同的损失函数上训练的问题，可能是观察到的检测结果大幅下降的原因。出于相同的原因，可能的是，由上下文模型学习的参数将提供较弱的上下文，以便避免加强定位误差。在这种情况下，对于不需要精确本地化的应用程序，最好使用较低的IoU进行训练（而不是仅使用较低的IoU评估结果）。另一个重要的问题是上下文的类型-图6.每个对象的最大上下文分类容量类别. 上下文用于将检测分类为真或假，当仅由于与背景混淆而导致的错误被用作错误检测时（蓝色），当仅与其他对象类别混淆X轴类别的顺序与图中的顺序相同。五、曲线），或者这可能是上下文经常损害检测结果的原因（因为加强真实检测类似地影响定位误差）。当在包含汽车、行人和骑自行车者的KITTI数据集上重复SSD检测器的对于这三类，与背景混淆的最大分类准确率分别为65%、61%、64%，与其他类别混淆的最大分类准确率分别为75%、67%、58%，与背景混淆的最大分类准确率分别为57%、67%、68%55%，54%为定位错误。5. 讨论尽管在包含上下文的对象检测方面做了大量的工作，但仍然存在一些误解。我们在SEC的调查结果。2澄清了目前的研究状况的主题，表明在许多情况下，环境确实改善的结果，在许多其他情况下，改善是微不足道的，甚至是有害的。理论分析和实证实验部分3.4和4指出定位错误是解释在许多情况下观察到的上下文的低效用的一个方面。这严重限制了需要精确本地化的应用然而，也可能存在准确定位不重要的其他应用，并且基于0.5或更高的IoU的报告结果可能会不可避免地使上下文看起来不值得。当然，在某些情况下，无论错误类型如何，上下文将检测分类为真或假的能力都相当低（图6），这意味着对于这种对象类别，测试被利用这项工作中的实验集中在对象之间的关系，通过同现和空间关系。然而，当对象关系不能提供帮助时，可能有其他种类的附加信息可以提供帮助例如，检测的边界框的纵横比或其像素的附加分割可能这些方法也可以使用建议的分析方法进行检查，但不在本工作的范围内。6. 结论为了阐明使用上下文进行对象检测，我们提出了一种方法，用于找到将上下文关系与标准检测结果相结合的函数，以便最大化检测分数。使用这种方法，我们能够显示哪些关系不是信息性的，并指出那些更值得追求的关系和受益最多的对象类别。进一步的实验强调，采用上下文的结果往往令人沮丧的原因是它无法处理定位错误，从而限制了当置信定位错误丰富时改进的可能性。作为一般准则，上下文可以提供显著的改进，这取决于错误的类型以及当它对于具有类似基础置信度的真检测和假检测不同最后，我们邀请研究人员使用这里开发的工具来分析他们可以通过结合上下文以及提供上下文的上下文关系来预期的改进，以改进检测结果。致谢这项研究得到了以色列科学、技术和空间部（MOST Grant 54178）的部分支持。我们还要感谢内盖夫本-古里安大学的弗兰克尔基金会和网络安全研究中心的慷慨支持。分离精度背景混淆与其他类别混淆7421引用[1] N. Arbel，T. Avraham和M.林登鲍姆场景内相似性作为目标检测的上下文线索。arXiv预印本，2017年。1、4[2] S.贝尔角劳伦斯·齐特尼克，K. Bala和R.娘娘腔。内外网：用跳跃池和递归神经网络检测上下文中的对象。在CVPR中，第2874-2883页，2016年。一、二、三[3] G. Chen，Y. Ding，J. Xiao，and T. X.韩多阶上下文共现检测演化。在CVPR，第1798-1805页，2013年。3[4] M. J. Choi，J. J. Lim，台湾野牡丹A. Torralba和A. S.威尔斯基在对象类别的大型数据库上开发层次上下文。见CVPR，第129-136页。IEEE，2010。二、三[5] W. Chu和D.菜基于深度特征的上下文模型用于目标检测。arXiv预印本arXiv：1604.04048，2016年。3[6] R. G. Cinbis和S. Scaroff 使用基于集合的分类的上下文对象检测。在ECCV中，第43Springer，2012. 一、二、三、四[7] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，第886-893页，2005中。1[8] C. Desai，D. Ramanan和C. C.福克斯多类别物件布局的判别模型。国际计算机Vision，95（1）：1-12，2011.第1、3条[9] S. K. Divvala，D. Hoiem，J. H. Hays，A. A. 埃夫罗斯，还有M.赫伯特语境在宾语检测中的实证研究。见CVPR，第1271-1278页。IEEE，2009年。一二三四八[10] M. Everingham，S. A.埃斯拉米湖凡古尔角，澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战：回顾展。国际计算机Vision，111（1）：98-136，2015. 4[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。国际计算机Vision，88（2）：303-338，2010. 二、三[12] P. Felzenszwalb，D. McAllester和D. Ramanan区分训练的多尺度可变形零件模型。在CVPR，第1-8页，2008中。1[13] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。IEEE传输模式分析马赫内特尔，32（9）：1627-1645，2010. 2[14] C. Galleguillos，A.Rabinovich和S.贝隆吉使用共现、位置和外观的对象分类在CVPR，第1 - 8页，2008中。2[15] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。CVPR，2012。6[16] G. Heitz和D.科勒学习空间背景：用东西找东西。见ECCV，第30-43页，2008年。第1、3条[17] D. Hoiem，Y.Chodpathumwan和Q.戴. 诊断物体探测器错误。ECCV，第340-353页，2012年。二、七[18] D. Hoiem，A. A. Efros，和M。赫伯特把物体放在透视图中。国际计算机Vision，80（1）：3-15，2008. 一、二[19]J. Huang，V.拉托德角孙，M。 Zhu，中国茶青冈A.科拉提卡拉A.法特希岛Fischer，Z. Wojna，Y.宋，S. Guadarrama和K. 墨菲现代卷积对象检测器的速度/ 精度权衡。在CVPR，2017年。57422[20] J. Li，Y.Wei，X.Liang，J.董氏T.徐，J.Feng和S.燕.用于对象检测的注意上下文。 IEEE Transactions onMultimedia，19（5）：944-954，2017。一、二、三[21] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Doll a'r 和 C. L. 齐特尼克Microsoftcoco：上下文中的通用对象。参见ECCV，第740-755页。Springer，2014. 5[22] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。E.里德角，澳-地Y. Fu和A. C.伯格。 Ssd：单发多盒探测器。在ECCV，2016年。6[23] W. Luo，Y.利河，巴西-地Urtasun和R.泽梅尔理解深度卷积神经网络中的有效感受野在NIPS，第4898-4906页，2016年。1[24] R. Mottaghi，X. Chen，X. Liu，N.- G.周S W.李，S。菲德勒河Urtasun和A.尤尔。背景在野外对象检测和语义分割中的作用在CVPR，第891-898页，2014年。一、二、三[25] J. Oramas M ， L. De Raedt和 T. Tuytelaars Allocentricpose estimation. InICCV，2013. 一、二[26] R. Perko和A. Leonardis静态图像中视觉上下文感知的目标检测框架CVIU，114（6）：700- 711，2010. 1[27] S. Ren ， K. 赫利河 Girshick 和 J. 太阳 Faster r-cnn ：Towards real-time object detection with region proposalnetworks.在NIPS，第91-99页，2015中。5[28] J. Shotton，M. Johnson和R.西波拉用于图像分类和分割的语义纹理元森林在CVPR中，第1-8页IEEE，2008年。3[29] S.宋，S. P. Lichtenberg和J.萧Sun rgb-d：一个rgb-d场景理解基准测试套件。在CVPR，第5673[30] A.托拉尔巴K. P. Murphy和W. T.弗里曼。使用提升随机场进行对象检测的上下文模型。NIPS，第1401-1408页，2004年。1[31] A. Torralba和P.辛哈统计上下文启动的对象检测。载于ICCV，第1卷，第763-770页。IEEE，2001年。1[32] L. Wolf和S.Bileschi。对上下文的批判性看法 Int. J.Comput. Vision，69（2）：251-261，2006. 一、二[33] B. Yao和L.飞飞人-物交互活动中物体和人姿态的交互上下文建模。见CVPR，第17-24页。IEEE，2010。一、二[34] J.Yao，S. Fidler和R.乌塔松描述整个场景的：联合目标检测、场景分类和语义分割 . 在 CVPR 中，

下载后可阅读完整内容，剩余1页未读，立即下载