物体探测器中的置信偏差对性能有损害

87 浏览量更新于2023-10-16 收藏 637KB PDF 举报

可靠性框图

目标检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1盒子大小的置信偏差会损害你的物体探测器Johannes Gilg Torben Teepe Fabian Herzog Gerhard Rigoll慕尼黑摘要无数的应用依赖于现代物体检测器的准确预测和可靠的置信度估计。然而，众所周知，包括对象检测器在内的神经网络会产生误校准的置信度估计。最近的研究甚至表明，检测器1.00.80.60.40.20.0可靠性框图023 1完全校准组1第二组校准0.0 0.2 0.4 0.6 0.81.0信心1.00.80.60.40.20.0预期精密度-召回20/310.0 0.2 0.4 0.6 0.81.0召回物体大小和位置。在目标检测中，条件偏差、置信度校准和任务性能的问题通常是孤立地探讨的，但是，正如我们的目的所示，它们是密切相关的。我们正式证明了条件置信偏差会损害目标检测器的性能，并从经验上验证了这些发现。具体来说，为了量化置信偏差对对象检测器的性能影响，我们修改了直方图分箱校准，以避免性能受损，而是通过边界框大小的校准条件来改善它。我们进一步发现，置信偏差也存在于检测器的训练数据上生成的检测中，这可以用来执行去偏置。此外，我们表明，测试时间增强（TTA）混淆这种偏见，这导致更显着的性能损害的检测器。最后，我们使用我们提出的算法来分析一组不同的对象检测体系结构，并表明条件置信偏差损害其性能高达0.6mAP和0.8mAP50。代码可在https://github.com/Blueblue4/Object-Detection-Confidence-Bias上获得。1. 介绍准确的概率估计对于自动决策过程是必不可少的.它们对于准确和可靠的业绩以及正确评估风险至关重要对于物体检测器来说尤其如此，它们经常部署在自动驾驶、医疗成像和安全应用等独特的关键领域，在这些领域中，人类的生命可能受到威胁。尽管有这些高风险，对象检测器的置信度校准得到的关注相对较少。最图1. 示例说明条件偏差损害对象检测性能。合成数据显示了具有两个可识别的子组的检测。如可靠性图（左）所示，在不同的误校准子组上调节置信度操作点“2”具有比点“1”严格更高的精确度和召回率，但只有在去除检测器的条件偏差时才能达到。最佳的颜色和放大。在目标检测器的设计中，人们的注意力集中在追求性能基准上的最先进的结果，而忽略了其预测的置信度问题。此外，对象检测器最近被证明可以产生相对于其回归输出的有条件偏置置信度[22]，即，盒子的大小和位置。这种偏差意味着，对于具有相同预测置信度的检测到的对象，其为真阳性的概率可能会根据对象大小和图像中的位置而显著变化。然而，目前还不清楚这种偏差如何与受影响的物体检测器的性能相关。我们正式证明了条件置信偏差会损害目标检测性能，并从经验上验证了这一发现。一个有条件的置信偏差，例如，边界框偏差可以防止对象检测器在精确-召回域中达到严格更好的操作点。在图1中，模拟数据的简化图示显示了条件偏倚检测的影响。我们还量化了这种性能的影响，通过校准对象检测器使用修改后的直方图装箱条件的边界框大小。1471TP检测概率（P）精度1472DG|D|D G≥∀ ∈−Σ我们的贡献是：1. 我们正式证明了对象检测器的条件偏差导致非最优的预期平均精度（AP）。2. 我们凭经验验证了这一发现，并使用修改后的直方图分箱，以边界框大小为条件，量化了3. 我们证明，测试时间增强（TTA）可以混淆的问题所造成的条件偏差有条件地校准每个扩增的检测。4. 使用我们提出的具有启发式性能指标的条件校准程序，我们能够在标准COCO[24]评估和测试开发基准上提高大多数测试对象检测器的性能，并验证置信偏差具有实际的性能影响。2. 相关作品神经网络的置信度校准。置信度校准通常作为不确定度估计的后处理步骤。现代神经网络做出了高度错误的预测，如Guo等人所示。[13]在早期的作品[29，41]暗示。有许多方法可以校准预测模型的置信度，例如直方图分箱[49]，贝叶斯分箱[26]，保序回归[50]和普拉特缩放[33]，以及多类修改温度缩放[13]和更一般的Beta校准[19]。深度学习对象检测器的置信度校准首先由Neumann等人提出。[27]这是一个学习问题。 Kuppers等将不同的校准方法推广到目标探测器的条件校准[22]。测量校准误差。与校准方法一样，测量预测的校准程度也是一个长期存在的研究领域[4，12，47，8]。受早期通过可靠性数据进行可视化的启发，spect到其回归边界框输出。相比之下，我们展示了相对于边界框的条件置信偏差实际上对对象检测器的性能是有害的3. 材料和技术背景物体检测。对象检测器是生成表示图像中对象的存在和位置的一组检测的预测器。每个检测器的N+1=检测di=（ki，bi，ci），由猫概率ki、矩形边界框bi=（w，h，x，y）和置信度ci组成。置信度c i表示检测器对于在位置b i处存在具有类别k i的对象的确定性。评估对象检测器。对象检测器根据对象的地面实况集进行评估（）。对于每个对象类别的检测，分别执行评估。如果检测di的预测边界框与地面实况边界框的重叠大于阈值tIoU，并且如果di在与地面实况边界框具有足够大的重叠的所有检测中最高，则检测di重叠是使用Jaccard系数计算的，在这种情况下更合适地称为Intersection over Union（IoU）。我们定义指示变量τi，如果di是TP检测，则τ i为1，否则为0在对象检测的上下文中，真阴性的概念没有很好地定义，因为它将对应于图像中任意数量的因此，使用精确度和召回度量来评估对象检测器[31]。为了计算对象检测器的查准率和查全率，其检测根据它们的置信度从最大到最小（ci ci+1，i[1，N1]）进行排序。然后，i次检测后的精度Prec（i）是i个评估预测中的分数TP预测TPi为了简洁起见，省略对、和tIoU的依赖，我们可以简单地将其写为克[8]，目前广泛使用的预期校准TPi我吉塔克错误（ECE）[26]仍然暴露出许多缺点，修改建议[21，30，44]，包括适应Prec（i）=TP+FPi 为k=1我（一）探测器[22]。我们注意到，我们明确地没有显示ECE，因为它没有捕获条件置信偏差。深度学习中的偏见深度学习中的偏见广泛存在于类似地，在i次检测之后的召回是frac。在可用的地面实况对象的数量中的TP预测的作用（|G|）：TPi吉塔克研究，通常在公平的背景下[51，34，3，15，46，39]，数据集偏差[43，52，1，18]和学习技术，Rec（i）=TPi+FNi为k=1.（二）|G|在训练期间减轻偏差[17，2，1，52，39]。另一方面，对象检测器中的偏差较少探索，对象检测器的上下文偏差除外[55，38]。 Zhao等人[52]探索了对象检测数据集中的标签偏差。 Kuppers等[22]是第一个在目标检测器的置信度估计中显示条件偏差的人，它们可以统一为一个指标-即所谓的平均精度（APtIoU）NAPtIoU=Prec（i）·Rec（i），（3）i=11473∈|∼||∈·D∈ΣΣ·M 、Mk=1kii.Σ其中，Rec（i）表示召回率从di−1到di的变化。然后在tIoU [0]的范围内对AP t IoU求平均。50，0。55... 、0.95]，并在所有对象类别上，以获得最终平均平均精度（mAP）值，该值是检测器的统一性能指标。还使用的mAP 50是t IoU = 0的类平均AP。50块mAP度量的官方基准实现应用精确度-召回率曲线的最大插值和特定召回值的点采样[24，9，31]。这可以产生比Eq. （三）、我们还使用了官方的CommonObjects in Context数据集[24]（COCO）评估脚本，以便在基准测试中获得更好的可比性。置信度校准。置信度校准的目标是使每个预测的ci等于经验对象检测器对于TP预测P（τ i =1 d = di）的概率。从这里开始我们把它记为Pi简而言之。对于置信度校准，我们认为目标检测器是一个随机过程。预测d i的标签现在由随机变量TiBernoulli（Pi）表示，其中τ i具有tIoU= 0。第50章作为一个样本Pi也可以被看作是对象检测器对于具有相同置信度ci的一组检测的精度;我们将Pi称为“成功”或TP检测的概率（一）. 该符号还使该定义与分类神经网络的置信度校准兼容[13]，因为P（τ i=1）等效于分类器的经验准确度。大多数基于深度学习的对象检测器在其置信度估计[27，22]。因此，置信度校准的目标是找到一个映射f，该映射f估计输入区间上的真实置信度校准曲线f（0，1]：通过采用具有位于置信区间内的置信度的检测并计算作为TP的检测的分数来计算TP检测在区间内的估计概率P_m具有置信度ci的某些检测di的直方图分箱校准是一个简单的查找对应的计算的平均P_m_n，binCmciCm. 直方图分箱可以扩展到多变量校准方案[22]。对于条件相关的分箱，我们首先根据检测的盒大小将检测分割成箱B，然后对每个不相交的检测子组执行详细描述的直方图分箱。这个更一般的校准函数f∈C ，B（d）产生条件概率P的估计，如等式2所述。（五）、4. 目标探测器我们假设条件置信偏差[22]正在损害目标检测器的性能。图1我们基于具有不同校准曲线的两组检测的夸张示例来可视化此想法。每个组仅具有具有单个相应置信度值的检测，并且对于该示例，很明显，置信度阈值为0.55的检测器对于未校准的检测（0，1）将具有50%的精度，在精确召回曲线中可以观察到相关的改善。该曲线下面积与AP度量密切相关[31]。我们的简单示例和假设表明，对象检测器的置信度估计中关于边界框大小和位置的偏差[22]正在损害检测器的性能。我们感兴趣的是这个假设的正式证明。f（c i）= P（τ i= 1|c = c i）。（四）Kuppers等在Pi上划分还取决于预测边界框大小和位置，而不仅仅取决于ci：f（di）=P（τi=1|c=ci，b=bi）。（五）为简单起见，我们仅关注用于条件置信度校准的预测边界框（h w）的大小，忽略位置（x，y）。置信度校准的挑战在于，我们只能从每个Ti4.1. 最大化平均精度为了证明我们的假设，即置信偏差会损害对象检测器的性能，我们来看看任何tIoU的APtIoU如何与P相关，以及如何在一组检测中将其最大化。一个物体探测器可以被看作是一个随机过程（见第二节）。3）所以我们需要分析预期的AP。从等式（3）我们得到一次条件概率P需要从所有可能的置信度值c（0，1]上的二元结果τ中估计;因此，这是一个密度估计问题。ET[APtIoU] =ETNi=1Prec（i）·Rec（i）Σ。（六）直方图分组。最直接的黑盒校准方法之一是直方图分箱[49]。对于直方图分箱，预测被分组为M替换方程（1）和（2）和我们的随机指标变量T，我们得到：置信区间Cm的大小相等，因此，m−1m在各个时间间隔内分别执行ΣΣNIOU.i−1（T我第m个bin是Cm=ET[APt. 密度估计-] =ET.（七）1474）+TTΣΣ|G|i=11475k=1Σ1·PiiΣ1.+∈∉∈ DΣ∈D联系我们如果我们假设Pi和Pj对于每个i，j都是独立的，那么我们就可以知道性能实际上恶化了多少I jET[APt IoU]=N|i=1|i=1. i−1（Pk）+1Σ。（八）为了估计性能影响，我们尝试校正校准曲线之间的变化，并查看它在多大程度上提高了性能指标。如果我们找到消除条件偏倚的检测置信度映射，则可以消除变化，从而获得相等的校准值。通过一些简单的算术运算，我们可以将其重新表示为：曲线f. 这可以通过映射配置来实现成功的概率等于成功的概率ET[APt IoU]=N|G|PiP我我PKKΣ。（九）边界框大小。当然，概率通常是未知的，但置信度校准处理的正是i=1k=i+1hi（P i，P）这里，我们看到对于i， hi（l，P）> hi+1（l，P）N和l（0，1]。因此，我们可以通过根据P从大到小对预测进行排序来最大化预期APtIoU计算中的总和。由于在评估APtIoU之前，检测是根据其置信度进行排序的（参见第3），在以下条件下最大化：Pn

下载后可阅读完整内容，剩余1页未读，立即下载