基于梯度的对象检测中的不确定性特征

72 浏览量更新于2023-10-15 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3921深度目标探测器Tobias Riedlinger1Matthias Rottmann1，2Marius Schubert1HannoGottschalk11德国伍珀塔尔大学数学与自然科学学院2瑞士洛桑联邦理工学院计算机与通信科学学院{riedlinger@math.，rottmann@math.，uni-wuppertal.de摘要大多数深度目标探测器的不确定性量化方法都是基于网络输出的，例如Monte-Carlo dropout或深度集成等采样策略，直接转移到目标探测。在这里，我们研究基于梯度的不确定性特征的对象检测。我们表明，它们包含的信息正交的共同的，基于输出的不确定性近似方法。使用Meta分类和Meta我们的研究结果表明，梯度不确定性本身在不同的检测器和数据集上的表现与最先进的方法不相上下。我们发现，组合Meta分类器优于独立模型。这表明采样策略可以通过基于梯度的不确定性来补充，以获得改进的置信度，从而有助于下游应用中的对象检测器的概率1. 介绍为诸如对象检测或语义分割之类的任务设计的深度人工神经网络（DNN）提供对诸如相机图像之类的给定特征数据的概率预测。现代深度对象检测架构[28，43，44，26，1]预测输入图像上一组学习类的实例的边界框。所谓的对象性或置信度得分指示每个预测边界框的对象存在的概率。在整个工作中，我们将通过术语“分数”来指代DNN学习的这个量。对于自动手术或驾驶等深度物体探测器例如，参见图1的顶部面板中的检测。1，其中每个框的颜色从红色（低分）到绿色（高分）。除了得分s梯度置信度τ图1.街道场景中的物体检测。顶部着色：得分s;底部着色：通过我们的方法获得的基于实例的梯度置信度τ这里的虚线框指示在[0]中的任何置信度阈值处的丢弃。3，0。85]。顶部图像包含不能基于分数与正确丢弃的框分离的FN（较低阈值将导致FP）。在底部图像中，这些s-FN被分配较高的置信度，并且存在大范围的阈值而没有FP。从准确的绿色方框中，0的情况。3（虚线）包含真实和虚假的预测，这些预测不能根据它们的分数可靠地分开。此外，众所周知，DNN往往会给出错误校准的分数[52，12，13]，这些分数通常过于自信，也可能过度自信的预测可能会使自动驾驶系统无法操作，因为它会感知到不存在的实例（误报/FP）。更有害的是，信心不足可能导致被忽视的（假阴性/ FN）预测，可能危及自动驾驶车辆外的人，如行人和骑自行车的人，以及乘客。3922除了修改和改进检测体系结构或损失函数外，还存在用于估计预测置信度的方法，这些方法比分数更复杂，以便解决这些问题[36，30，48]。我们使用术语“置信度”比“得分”更广泛地指代表示检测正确的估计概率的量。当面对给定的输入时，这样的数量应该反映模型统计模型的不确定性，特别是DNN，可以大致分为两种类型[18]，取决于其主要来源[9，20]。而任意的不确定性主要是建立在随机性质的数据生成过程中，认知的不确定性源于概率性质的采样数据的训练，以及，作为选择的模型和训练算法。后者在技术上可以通过获得额外的训练数据来减少，并且是我们方法的中心主题。由于深度对象检测的基于实例的性质，捕获认知不确定性的现代方法主要基于实例式DNN输出。从理论的角度来看，贝叶斯DNN [5，33]代表了一个有吸引力的框架，通过将其权重建模为随机变量来捕获DNN的认知不确定性实际上，这种方法引入了一个大的计算开销，使其应用不可行的对象检测。因此，在变分推理方法中，从预定义的分布中采样权重以解决这个问题。这些著名的方法包括Monte-Carlo（MC）dropout[50，10]通过在主动dropout下执行几次向前传递来同样的想法也是深度集成采样的基础[25] 其中具有相同架构的单独训练的模型产生变化的前向传递。基于分类输出的其他方法也可以应用于对象检测，例如softmax熵或能量方法。还为图像分类架构开发了许多其他强不确定性量化方法，这些方法不仅依赖于分类输出[4，34，40，42]。然而，由于体系结构的限制，如果可能的话，将这种方法转移到对象检测框架可能会带来严重的挑战。例如，提出了在网络自身预测时评估的学习梯度的使用[40]，以包含图像分类的认知不确定性信息，并对分布外（OoD）数据进行了研究。该方法还应用于自然语言理解[54]，其中梯度特征和深度集成不确定性被聚合以获得OoD数据的良好校准的在[17]中，通过观察数据分布的变化，在分类设置中进一步探索了梯度不确定性的认知内容我们提出了一种计算梯度特征的方法，探测器的探测深度。我们表明，他们表现形式等同于国家的最先进的不确定性量化方法，他们包含的信息，不能从输出或采样为基础的方法。具体而言，我们将我们的主要贡献总结如下：• 我们介绍了一种为现代对象检测架构生成基于梯度的不确定性特征的方法，允许从隐藏的网络层生成不确定性信息。• 我们研究了梯度特征在Meta分类（FP检测），校准和元回归（预测与地面事实的联合IoU的交集）方面的性能，并将其与其他方法进行比较，以量化/近似认知不确定性，并通过梯度不确定性研究相互冗余以及• 我们明确调查的FP/FN权衡的基础上的分数和Meta分类器的• 我们提供了一个理论上的处理梯度功能的计算复杂性相比，MC辍学和深合奏，并表明他们的FLOP计数是相似的最坏的。执行显式运行时测量以进行验证。我们的方法的实现可在https://github.com/tobiasriedlinger/gradient-metrics-od 公开获得。我们的方法的视频说明可在https://youtu.be/L4oVNQAGiBc上公开获得。2. 相关工作深层目标探测的认知不确定性。基于采样的不确定性量化，如MC脱落和深度集成已经在对象检测的背景下，由几个作者在过去进行了研究。它们可以直接实现到任何架构中，并为所有边界框特性产生输出差异。Harakeh等人[14]采用MC dropout和贝叶斯推理代替非最大值抑制（NMS），得到认知和任意不确定性的联合估计。同样，认知不确定性测量是由Kraus和Dietmayer [23]从MC dropout中获得的Miller等人[36]研究了MC dropout作为提高开集条件下对象检测性能的一种手段Miller等人研究了MC dropout样本的不同合并策略。[35]并与深系综中合并盒的影响进行了比较[37]。Lyu等人[30]聚合的深度系综样本就像从单个检测器产生的一样，以获得改进的检测性能。Schubert等人研究了由建议框方差pre-NMS生成的各种不确定性度量，称为MetaDetect。48. 在生成高级分数和IoU估计时，3923LL··c=1--L据报道，所获得的信息在很大程度上是冗余的MC脱落不确定性特征。上述所有方法都基于网络输出，并通过以某种方式聚合预测建议来生成方差。此外，大量基于分类输出的不确定性量化方法可以直接应用于目标检测[16，29]。对于为图像分类而开发的其他方法知之甚少，这些方法由于体系结构的限制而不能直接转移到对象检测（例如，基于激活[4]或基于梯度[40]的不确定性）。核心困难在于，不同的预测实例取决于共享的潜在特征或DNN权重，因此基本方法只能估计整个预测（所有实例）的不确定性，而不是每个实例的单独估计我们表明，梯度不确定性信息可以从对象检测器的隐藏层中提取，试图确定它们如何与基于输出的方法进行比较，并表明它们包含正交信息。Meta分类和Meta回归。术语Meta分类是指基于不确定性特征区分TP和FP，Hendrycks和Gimpel [16]首次探索了基于最大softmax概率检测OoD样本。从那时起，该方法已被应用于自然语言处理[54]，语义分割[2，31，46，45，47]，实例视频中的分割[32]和对象检测[48，22]，以根据推断过程中可访问此外，还研究了Meta回归（以相同方式基于不确定性的IoU估计）[31，32，46，47，48]，显示估计值与真实定位质量之间存在较大Chan等人[2]已经表明，Meta分类可以用来提高网络的准确性，这是一个迄今为止还没有实现的目标检测的想法。以前的研究忽略了类限制的Meta分类原则，例如，当限制到安全相关的实例类时。此外，为了使下游应用基于Meta分类输出，得到的置信度需要在统计上可靠，即，这也是之前的研究所忽略的。3. 认知不确定性在基于实例的识别任务中，例如对象检测或实例分割，预测y=（y1，. . . ，y<$Nx）（1）由实例列表组成（例如，边界框）。的或者基于梯度的信息最多只能产生关于Y的整体的陈述，而不能立即产生关于单个实例Y 的陈述。这个问题对于从深度特征生成的不确定性尤其明显，这些深度特征潜在地全部影响瞬时测量。在这里，我们介绍了一种方法来生成基于梯度的不确定性特征的实例为基础的设置。为此，我们勾勒出梯度不确定性是如何产生的分类任务。一般来说，给定输入x，分类网络预测类分布y∈（x，w）=（p∈1，. . . ，p<$C）的固定长度C，给定一组权重w。在训练期间，后者通过某个损失函数（，）与属于x的基础事实标签y进行比较，该损失函数通过优化w来最小化，例如，随机梯度下降法 w-步长与梯度g（x，w，y）成比例：=w（y∈（x，w），y）也可以看作是对w的学习压力的一种度量。梯度不确定性要素是通过将不可访问的基础事实y替换为网络的类预测y生成的：= argmax c p cC并讨论了后者对W的依赖性。在下文中，我们将使用其独热编码来识别y。标量值是通过计算g（x，w，y）=<$wL（y<$（x，w），y）.（2）为此，在我们的实验中，我们使用的地图，{min（·），max（·），mean（·），std（·），|·|1、|·|2}。（三）我们将在补充材料中讨论后一种选择，并首先阐明有关eq的一些观点。（二）、直觉与讨论（2）。首先，EQ。(2)可以看作是网络的自学习梯度。因此，它表示在给定类预测y为基础的条件下对w真理标签崩溃的（例如，softmax）预测y=y意味着（2）在分类设置中通常不消失然而，这种考虑给（边界框）回归带来了一个问题，我们将在下一段。我们还注意到，通过限制等式中的w，可以生成细粒度的特征。(2)权重w的子集，例如，单个层、卷积滤波器或奇异权重（计算的部分梯度）。使用等式(2)作为不确定性的量度，可以通过关于正确和错误的预测来理解。一个性能良好的网络，当用通常的学习梯度对（y，x）进行训练时，它的y已经接近真实的值，并且几乎没有压力这反映了对预测y和eq. (2)并且真实的梯度很小。在错误预测通常情况下，y的长度取决于相应的输入-y=y，真实的学习梯度会强制进行大的调整将x和放在超参数上（例如，置信度/重叠阈值）。不确定性信息不是直接从实例数据（如激活）中生成的，inW.自学习梯度方程。(2)不同的表现在于，它对于非峰值/不确定（高熵）的预测是大的，而对于高度峰值的分布是小的。3924∼Σ˜L= L（y∈（x，w），y），˜˜˜˜||≈L.Σ××O以下考虑建立了与经验发现的联系假设我们从一个固定的分布p中提取数据（y，x）p，我们认为g（x）：=g（x，w，y）。一个简单的计算（cf.附录E）显示，在计算（6）时对目标检测中的多准则损失函数进行设置和扩展。计算复杂性。基于采样的认知不确定性量化方法，如MC dropout和E（y，x）的|g（x）||y = y（x）] 0，其中ε（x）=c=y（x）p（c|x）是模型的条件误差率。g（x）和lo之间的这种实际正相关性-在实验中独立地建立了校准误差率。前[40，51]。进一步注意，对于精确模型，其中g（x）g（x，w，y），该关系表示epistemic不确定性，因为模型将更强地适应ε（x）（仍然）大的情况。物体探测器的扩展。我们先来澄清一下，在生成用于对象检测的不确定性信息中提到了复杂性。一般来说，预测（1）是一个大的过滤结果，通常是固定的数量N/N，输出边界框y（x，w）。给定一个地面实况列表y对于边界框，损失函数通常具有以下形式（五）使得所有N个输出边界框x潜在地对g（x，w，y）有贡献。同样，当将 y 过滤为更小数量的预测box_es_y，并将它们转换为地面实况格式y时，我们可以计算自学习梯度g（x，w，y）。然而，这个量并不涉及任何单独的预测，而是涉及y同时中的所有框。我们采取两个步骤来获得有意义的梯度信息的一个特定的框yj从这种方法。首先，我们将地面实况插槽限制为仅包含长度为1的列表yj，将其记录为虚拟标签。这仅仅是不够的，因为y（x，w）中的其他正确预测的情况将导致惩罚和“过度校正”梯度g（x，w，yj），givenyj作为标签。这个梯度的优化目标是，形象地说，当给出x时，通过y_j来预测每一件事。请注意，我们不能简单地计算w（y∈j（x，w），yj），因为回归损失，例如边界框回归，通常是基于范数的（例如，Lp-损失），使得相应的损失和梯度都将消失。因此，我们其次屏蔽y，使得结果可能仅包含输出框，其意味着预测与yj相同的实例。我们对这个掩码的条件是足够的score r e，足够的verlap与yj和相同的指示类yj（预测将被抑制的yj在NMS中）。我们将满足这些条件的y的子集称为y j的候选盒，记为cand[yj]。因此，我们提出了候选限制自学习梯度gcand（x，w，y<$j）：=wLcand[y<$j]（x，w），yj（6）计算实例不确定性y。这种方法符合分类的动机提供了梯度不确定性特征的浮点运算（FLOP）计数的理论结果，并在附录D中提供了证明和其他详细信息。在我们的实验中，我们分别使用在最后一个上计算的梯度。每个网络架构的两个层（如果适用，也可以是不同架构分支的两个层）。对于层t，我们假设步幅为-1，（2s t+1）（2s t+1）─卷积层作用于空间大小WT HT。这些假设适用于我们实验中的所有架构。输入通道数记为kt−1，输出通道数记为kt。定理1计算等式中的最后一层（t=T）梯度所需的FLOP的数量。（6）是O（k Thw+k T k T−1（2sT+1 ）4 ）。同样，对于较早的层 t ，我们有（kt+1kt+ktkt−1），表明我们已经预先计算了连续层t +1的梯度。如果只在最后一层进行变分推理，每个样本的FLOP时间复杂度为O（k Tk T−1hw）。定理 1 提供了即使对于仅在最后一层之前的 MCdropout，或者使用共享整个架构但最后一层的有效深度子集合[53]，梯度特征也需要更少或最差相似的FLOP计数。耳朵采样，特别是整个深合奏，甚至更高的FLOP计数比这些变种.注意，计算梯度特征具有稍微更大的计算延迟，因为在可以计算梯度之前需要计算完整的前向传递。此外，虽然原则上可以实现采样策略以并行运行所有样本前向通道，但是对于每个图像的预测框，可以并行运行我们在第5节中比较了不同方法的显式时间测量，并在附录D中提供了定理1的证明4. Meta分类和Meta回归我们评估梯度评分在Meta分类和元回归方面的有效性这两种方法允许聚集潜在的大特征向量以获得相应预测的不确定性估计（例如，边界框）。Meta分类的目的是通过生成置信度估计来检测FP预测，而元回归直接估计预测质量（例如，IoU）。这又允许通过考虑基于不同特征的Meta分类器和元回归模型来统一比较不同的不确定性量化方法及其组合。此外，我们还可以研究相互之间的重复程度3925----∈D∈→→D联系我们˜∼˜输入图像x检测{y=1，. . . ，y<$Nx}fτDMeta分类τ1，. . . ，τNx(TP信心）{φ1，. . . ，φNx}特点φifiDMeta回归1，. . . ，Nx（预测IoU）e.G. softmax/MCdropoutstdofy=i，|2或其他（cf。|2or others (cf. 表2）图2. Meta分类和元回归流水线：将不确定性特征向量φj分配给每个检测到的框yφj。在训练期间，我们拟合fτD和fiD以将φj映射到τj（TP/FP）和max。分别是，在推断时，fτD和fiD产生置信度，并且IoU基于φ j估计y j的τj和τij。不同来源的不确定性。在下文中，我们总结了这种用于边界框检测的方法，并在图1中说明了该方案。二、我们认为对象检测器生成Nx检测的列表以及用于每个预测的边界框的向量 φ j 。这个矢量φjn 个“特征”中的 Rn可以包含梯度分数，但是，例如，边界框特征、MC丢失或深度集合特征或其组合（例如，通过级联dropout和ensemble特征向量）。在训练数据上，我们计算盒子 y和相应的特征 φ=（φ1，. . . ，φNx）。我们根据特征φ j的最大IoU（表示为ij[0，1]）用相应的基础真值来评估与特征φ j相对应的每个预测实例y ∈ j，并确定FP/TP标签τ j0，1。Meta分类器是一个轻量级的分类模型fτ：Rn（0，1），它给出了φj的分类概率（替代y的不确定性）作为我们拟合的TP. 类似地，一个Meta区域模型fi：RnR被拟合到y的最大值IoUij，其中x为基础真值。模型f τD和f iD可以被认为是后处理模块，其在给定到对象检测器的输入的情况下生成置信度度量，从而导致特征φ j。在推理时，我们然后获得逐盒分类概率τk= f τD（φ k）和IoU预测τk=fiD（φk）。然后，我们分别根据受试者工作特征下的面积（AuROC）或平均精度（AP）度量以及决定系数（R2）来确定f τ D和f i D的预测功率。MetaFusion（物体检测后处理）。作为不确定度量化的一个直接应用，我们研究了一种受[2]启发的方法。我们将Meta分类分配到对象检测管道中，表1.利用的层数和损失以及每个盒子的梯度 #层中的乘法表示相应的平行输出链。DNN（无附加梯度）。架构#层损失数量#梯度YOLOv32×3 3 6快速R-CNN2×4 4 8视网膜网2×2 2 4Cascade R-CNN2×8 816并与基于Meta分类的置信度滤波进行了比较。由于在我们的实验中，对于大多数有竞争力的不确定性基线，整个预过滤网络输出y的计算是昂贵的，我们实现了一个小的分数阈值，它仍然允许大量的预测框（每个图像150个这样，性能良好的Meta分类器（其准确地检测FP）与检测灵敏度的增加一起提供了一种“交易”不确定性信息以获得检测性能的方法。在大多数对象检测流水线中，在NMS之前执行我们选择在这里交换他们，因为他们往返于基线方法。根据平均精度（mAP[8]），将所得预测值与一系列置信阈值进行比较5. 实验在本节中，我们报告我们的数值方法和实验结果。我们研究了三个对象检测数据集的Meta分类和元回归，即Pascal VOC [8]，MS COCO [27]和KITTI [11]。我们在-研究基于梯度的Meta分类和元回归，仅用于2-范数标量，表示为GS||·||2（参见第3节）以及输出框Y中的其Meta分类概率作为预测置信度，如图2所示1.一、最先进的物品当量（3）表示为GS全. 一般事务人员全额总是为除了NMS之外，检测器还使用分数阈值，目标探测器（w）每个体系结构分支的最后两个网络层（除非另有说明）以及对损耗的每个贡献3926L±分别起作用，即，用于分类、边界框回归和对象性分数（如果适用）。我们在表1中列出了每个研究架构的结果计数和梯度数量。作为Meta分类器和元回归器，我们使用已被证明[54，48，32]表现良好的梯度提升模型每当我们0的情况。50的情况。00的情况。00。51 .一、00。0 0。5信心1 .一、00。00。51 .一、0表示平均值和标准偏差，我们通过对Meta分类器/元回归模型的训练分割D进行10倍图像交叉验证（cv）来对D的补集进行了评价。与基于输出的不确定性比较我们比较了基于梯度的不确定性与各种不确定性基线，包括具有标准Dark-net53主干的YOLOv 3模型的Meta分类（表2）和元回归（表3）[43]。作为类概率基线，我们考虑对象得分，softmax熵，能量得分[29]以及每个盒子的完整softmax分布。由于完整的softmax基线将模型直接拟合到所有类概率（而不是依赖于手工制作的函数），因此可以将其视为熵和能量得分的包络模型此外，我们还考虑了 MC dropout（MC）、深度集成（E）和MetaDetect（MD）中的其他输出由于MetaDetect涉及整个网络的边界框输出，因此它导致元分类器适合于比类概率基线更多的变量。因此，它是完整softmax基线的包络模型，因此，所有分类基线。表2中的结果表明，GSfull大致处于与AuROC相同的范围内。基于采样的不确定性方法，而consis-在AP方面，显然是两种最好的方法之一。较小的基于梯度的模型GS||·||2始终优于完整的softmax基线，最高可达 3 。 14AuROC 百分点（ ppts ）和高达 5 。60APppts。我们还发现，GS 全倾向于排名较低的AuROC。还请注意，MetaDetect大致与整个采样方法MC和E相当。虽然后一种方法旨在捕捉认知的不确定性，但它们构成了近似，并且不一定是相互冗余的。此外，我们比较了MC+E+MD中基于最大采样和输出的模型，并添加了梯度特征 GSfull ，以了解MC+E+MD中近似的认知不确定性与我们的方法之间的冗余程度。我们注意到在所有指标上已经表现良好的模型MC+E+MD的显着提升。表3表明，梯度不确定性对于Meta回归特别有用，GS full始终是最好的两个模型之一，并且达到了高达85的R2分数。4在KITTI数据集上。将GSfull添加到MC+E+MD总是会导致一个以上的R2ppt增益，这表明基于梯度和采样的特征没有冗余。目标检测架构。我们调查的appli- cability和各种不同的架构梯度不确定性的可行性除了YOLOv3模型，图3. VOC数据集（YOLOv3）上MD（中）和GSfull（右）的得分（左）和Meta分类器的可靠性图，具有校准误差（平均标准差）。灰色对角线显示最佳校准。我们研究了Faster R-CNN [44]和RetinaNet [26]中的两个标准对象检测器，这两个检测器都具有ResNet 50骨干[15]。此外，我们研究了Cascade R-CNN [1]中具有大ResNeSt 200[57]在撰写本文时，它在官方COCO检测领导者榜上名列前10名。COCO检测AP为49。03，这是在国家的最先进的范围内的纯，非混合任务对象探测器。在表4中，我们列出了Meta分类AuROC，以及用于得分的Meta回归R2、MetaDetect（代表基于输出的方法）、GS full和组合模型GS full+MD。我们看到GS完全再次与MD相当，在大多数情况下甚至超过它高达二、01AuROC ppts和高达11. 52R2ppts。当添加到MD中时，我们再次发现这两个性能指标都有提升，特别是在R2中. 在COCO数据集上，高性能模型Cascade R-CNN提供了一个非常强大的分数基线，完全与MD冗余，并超过了GS本身。然而，在这里我们也发现了0的改进。68ppts通过添加梯度信息。校准。我们评估Meta分类器的置信度当被划分为10个置信区间时，根据它们的校准误差获得上述结果。可靠性图如图所示。3分，MD和GS完整以及相应的预期（ECE [38]）和平均（ACE [39]）校准误差。分数显然过于自信，上置信度范围和两个Meta分类器都被很好地校准。后者的两个校准误差都比Score小大约行人探测。表2中的统计学改善可能不适用于数据集中通常与安全性相关的非多数类别。我们调查的“行人”类KITTI的Meta分类，并明确研究FP/FN的权衡。这可以通过扫描0和1之间的置信度阈值并对所得到的FP和FN进行计数来实现。我们为Meta分类器选择10-2的增量，为分数选择10-4的增量，以便在非常小的分数值范围内不太粗略地插值，其中大量的预测聚类。所得曲线如图所示。4.对于安全关键环境中的应用，并非所有错误都需要同等重要。例如，我们ECE = 0。040ACE = 0。114ECE = 0。003± 0.000ACE= 0。012± 0.001Cond. 精度ECE = 0。005± 0.000ACE= 0。020± 0.0033927∼表2.根据10倍cv（平均值±标准差）的置信度模型，在AuROC和AP方面的Meta分类性能。YOLOv3Pascal VOC COCO KITTIAuROC AP AuROC AP评分九十68 ±0。0669岁。56 ±0。1282岁97 ±0。0462. 31 ±0。05九十六。53±0。05九十六。87±0 . 01，P<0.05。03熵91. 30 ±0。0261岁94 ±0。06七十六。52±0。02四十二52 ±0。0494 79 ±0。0694 83 ±0。05[29]第二十九话92. 59 ±0。02六十四65 ±0。0675. 39 ±0。0239岁72 ±0。06九十五66 ±0。02九十五33±0。03完整Softmax九十三81 ±0。06七十二08 ±0.1582岁91 ±0。06五十八65 ±0。10九十七07 ±0.03九十六。85±0。03MC辍学[50]（MC，NMC=30）九十六。72±0。0278岁15 ±0。09 89岁。04 ±0. 02六十四94 ±0。11九十七60 ±0。07九十七17±0。10[25]第25话：我的世界九十六。87 ±0 . 01，P<0.05。02七十七。86±0。1188岁97 ±0。02六十四05 ±0.12九十七98 ±0。03九十七69±0。04[48]第48话九十五78 ±0。0578岁64 ± 0。0887岁16 ±0。0469岁。41 ±0。07九十八23 ±0。02九十八06 ±0. 02毕业。评分||·||2名（一般事务人员||·||2;我们的）94 76 ±0。0374岁86 ±0。1086岁。05 ±0.04六十四25 ±0。06九十七31 ±0。05九十六。86±0。10毕业。分数满（GS满;我们的）九十五80 ±0。0478岁57 ±0。1188岁07 ±0. 0369岁。62 ±0。07九十八04 ±0.03九十七81±0。06MC+ E +MD九十七66 ±0。02九十七95 ±0。02八十五13 ±0。1286岁。69 ±0。0991. 14 ±0。0291. 65 ± 0。03七十三。82±0。0574岁88 ± 0。07九十八56 ±0。03九十八74 ±0。02九十八45 ±0。03九十八62 ±0。01表3. 在10倍cv（平均值±标准差）内，每个置信模型的R2方面的Meta回归性能。YOLOv3Pascal VOC COCO KITTI评分四十八29±0。04三十二60±0。0278岁86 ±0。05熵四十三24±0。0321岁10 ±0。0469岁。33±0。04能量评分四十七18±0。03十七岁94±0。02七十一53±0。10完整Softmax五十三86±0。11三十六95±0。1378岁92 ±0。11MC61岁63 ±0。15四十三85±0。0982岁10 ±0。11E61岁48 ±0。07四十三53±0。1384. 18 ±0。12MD六十岁。36±0。1444. 22 ±0。11八十五88 ±0。10GS||·||2（我们的）五十八05 ±0.13三十八岁。77±0。0481. 21 ±0。05GS满（我们的）62. 50 ± 0。1144. 90 ± 0。09八十五40±0。11MC+E+MDGSfull+MC+E+MD69岁。38 ±0。11七十二26 ± 0。08五十四07 ±0.08五十六14 ± 0。1187岁78 ±0。1188岁80 ± 0。07250200150100500250 500 750 1000假阳性图4.“行人”类的Meta分类。通过扫描得分/ Meta分类概率的阈值获得的曲线。注意≤100个FN的FP间隙。90要求在通常希望特别小的给定FN计数上进行良好的折衷。我们目前的评估分割包含总共1152个行人实例。假设我们允许检测器错过大约 100 个 pedes-trians（10%），我们看到一些Meta分类器的FP减少。MD和GS完全是非常大致相同的，导致减少了近100个FP。结果表明，集合E与整个基于输出的模型MC+E+MD一样有效，仅落后于150个FN以上。这表明基于输出的方法之间存在一定程度的冗余。然而，将GS完全添加到MC+E+MD，再次将FP的数量减少约100，导致与分数基线相比FP差异约250。观察该趋势，改进对于较小数量的FN（小阈值）变得甚至更有效，但是对于大于200个FN的较大数量的FN减小。MetaFusion。关于Fig 2、Meta分类器自然适合作为对象检测流水线上的后处理模块。这样做不会生成新的绑定框，但会修改如图1所示的置信度排名因此，分数基线和Meta分类器对于固定的决策阈值是不可比较的。我们获得了一个比较的结果对象检测性能扫描，ING决策阈值的步长为0。05（分别）0的情况。025为分数）。mAP曲线如图所示。5. 我们绘制误差带，显示 GSfull 、 MC+E+MD 和 GSfull+MC+E+MD的cv- std。基于Meta分类的决策规则要么与得分阈值一致（MC），要么始终允许至少1的mAP改进到2mAPppts。特别是，MD表现良好，80评分MCEMD一般事务人员全额MC+E+MDGSfull +MC+E+MD评分MC EMD一般事务人员全额Meta假阴性3928≥最大约2 ppts 地图 . 当比较70600的情况。0 0。2040的情况。608个1.0在MC+E+MD中加入GS完全，我们仍然发现对于阈值0的微小改进。75. 评分曲线显示阈值为0时的扭结。05，并在与GS full相同的最大mAP处结束，而MC+E+MD和GS full +MC+E+MD的置信度排名明显改善。注意决策阈值图5.基线和MetaFusionmAP评分。我们在Meta分类器周围画出的误差带表示cv-std。基于GS全域的Meta分类对阈值的选择不如中值范围内的分数敏感。阈值为0。我们有一个大约为1的mAP间隙。4ppts地图3929表4.针对不同的对象检测架构，分别在AuROC和R2方面的Meta分类和Meta回归性能结果（平均值±标准差）来自上述10倍CVPascal VOCCocoKITTIAuROCR2AuROCR2AuROCR2Faster R-CNN评分MD一般事务人员全额89岁。77 ±0。0594 43 ±0。02九十五88 ±0。0539岁94 ±0。02四十七92±0。09五十九40 ±0。0383岁82 ±0。0391. 31 ±0。0291. 38 ± 0。03四十50 ±0。0144. 41 ±0。0450块44 ± 0。04九十六。53±0。05九十八86±0。02九十九。20 ±0。01七十二29±0。0279岁。92 ±0。0486岁。31 ±0。07GSfull+MD九十六。77±0。0563岁64 ±0。0892. 30 ±0。0252岁30 ±0。04九十九。37±0。0287岁46 ±0。05RetinaNet评分MD一般事务人员全额87岁53 ±0。0389岁。57 ±0。0491. 58 ± 0。04四十43 ±0。0150块27 ±0。10五十七23 ±0。0784. 95 ±0。02八十五09 ±0.01八十五59 ±0。0239岁88 ±0。02四十二45±0。12四十七74 ±0。06九十五91±0。02九十六。19±0。02九十七26 ±0。03七十三。44±0。02七十七。53±0。0884. 47 ± 0。04GSfull+MD92. 99 ±0。03六十四32±0。0787岁15 ±0。0551岁07 ±0. 09九十七61±0。02八十五73±0。09级联R-CNN评分MD一般事务人员全额九十五70±0。04九十六。32±0。05九十六。66 ±0。05五十七90±0。0963岁62 ±0。1263岁94 ± 0。1394 11 ± 0。0194 10 ±0。02九十三97±0。01五十六31±0。01五十八74 ±0。08五十七80±0。08九十八67±0。02九十九。18±0。01九十九。34 ±0。0183岁31 ±0。0386岁。22 ±0。0887岁39 ± 0。08GSfull+MD九十七24±0。0569岁。78 ±0。1394 78 ±0。0262. 13 ±0。06九十九。48±0。0189岁。59±0。04表5. εs = 10−4时不同方法的计算时间。方法参数AuROC AP R2FPS评分-九十六。53九十六。5378岁86四十三48MCN = 30，标准品。九十七60九十七1782岁1031岁45EN = 5，序列号九十七98九十七6984. 189 .第九条。17一般事务人员全额1层九十八04九十七8184.35三十四77它扩大到5。0时2 ppts。六、运行时间。我们比较了我们的方法的运行时间与MCdropout和YOLOv3在Nvidia Quadro P6000 GPU上以批量大小1运行的深度集成表5显示了KITTI数据集的平均性能和每秒帧数（FPS）的吞吐量。MC在dropout层中是批并行的，而E是顺序运行的。 GS全是在预测的盒子上并行化，通过卷积明确地形成（cf.第4节）。我们看到，在稍微好一点的Meta分类中，最后一层梯度分数比MC实现了大约3个额外的FPS，这与定理1一致。由于预测的初始分数阈值，这是可能的。计算更深的梯度相当于每层执行一次转置卷积，这不会妨碍并行性。6. 结论现代DNN在安全关键环境中的应用一方面需要高性能，但也需要可靠的置信度估计，以指示模型在何处不胜任。我们已经提出并研究了一种实现用于深度对象检测的基于梯度的不确定性量化的方法，该方法很好地补充了基于输出的方法，并且与已建立的认知不确定性量化方法相当。涉及一些不同的架构的实验表明，我们的方法可以应用到跨架构的显着好处，即使是高性能的最先进的模型。我们3930表明当用作后处理时，Meta分类性能延续到对象检测性能，并且元分类自然导致良好校准的梯度置信度，从而提高概率可靠性。公式（6）原则上可以被扩充以适合基于实例的逻辑（例如，3D边界框检测、实例分割）。我们的方法的工业应用可能包括主动学习中基于不确定性的查询或数据注释错误的概率检测。我们希望这项工作将启发未来的进展，不确定性量化，概率目标检测和相关领域。局限性。虽然我们的实验表明，基于梯度的不确定性可以有益地用于估计预测质量和置信度，但根据OoD（或“开集条件”）检测对梯度特征进行比较然而，在基于实例的设置本身的OoD的定义仍然是当代研究的主题[36，6，19]，缺乏一个广泛建立的定义。谢谢。导致这些结果的研究是由德国联邦经济事务和气候行动部资助的，在“KI- Absicherung -安全AI自动驾驶”项目中，批准号为。19A19005R。我们感谢财团的成功合作.我们衷心感谢北莱茵-威斯特伐利亚州经济、创新和能源部（MWIDE）和欧洲区域发展基金通过FIS.NRW项目BIT-KI提供的财政支持。EFRE-0400216。作者对高斯超级计算中心表示感谢。通过约翰·冯·诺依曼计算研究所在朱利希超级计算中心的GCS超级计算机JUWELS上提供计算时间，为该项目提供资金。3931引用[1] 赵伟蔡

下载后可阅读完整内容，剩余1页未读，立即下载