密集混合异常检测：基于混合算法的高性能图像识别

45 浏览量更新于2023-12-01 收藏 25.96MB PDF 举报

混合算法

语义分割

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0DenseHybrid：用于密集开放集识别的混合异常检测0Matej Grci´c，Petra Bevandi´c和Siniˇsa ˇ Segvi´c0萨格勒布大学电气工程与计算机学院，Unska 3，10000Zagreb，克罗地亚 { matej.grcic,petra.bevandic,sinisa.segvic }@fer.hr0摘要。异常检测可以通过对正常训练数据进行生成建模或通过与负训练数据进行判别来实现。这两种方法展示了不同的失效模式。因此，混合算法是一个有吸引力的研究目标。不幸的是，密集异常检测需要平移等变性和非常大的输入分辨率。据我们所知，这些要求使得所有以前的混合方法都不合格。因此，我们设计了一种基于重新解释判别逻辑的新型混合算法，将其作为非归一化联合分布ˆ p ( x , y )的对数。我们的模型建立在共享的卷积表示上，从中恢复出三个密集预测：i）封闭集类别后验概率 P ( y | x )，ii）数据集后验概率 P ( d in | x)，iii）非归一化数据似然ˆ p ( x)。后两个预测都在标准训练数据和通用负数据集上进行训练。我们将这两个预测融合成一个混合异常分数，可以在大型自然图像上进行密集开放集识别。我们为数据似然设计了自定义损失，以避免通过难以计算的归一化常数 Z ( θ )进行反向传播。实验评估了我们在标准密集异常检测基准上的贡献，以及基于open-mIoU的密集开放集性能的新指标。尽管与标准语义分割基线相比，我们的方法在计算开销上几乎可以忽略不计，但实现了最先进的性能。官方实现：https://github.com/matejgrcic/DenseHybrid0关键词：密集异常检测，密集开放集识别，分布外检测，语义分割01 引言0现代神经网络具有高准确性、快速推理和小内存占用的特点，不断扩展了下游应用的范围。许多令人兴奋的应用需要语义分割提供的先进图像理解功能[17]。这些模型将每个像素与预定义的分类关联起来。它们可以准确地对两百万像素的图像进行分割0arXiv:2207.02606v1[cs.CV] 6Jul20220+v:mala2255获取更多论文SMIYC-ObstacleTrackLostAndFoundFishyscapes StaticStreetHazards+v:mala2255获取更多论文02 M. Grci´c et al.0实时在低功耗嵌入式硬件上进行语义分割[11,43,26]。然而，标准的训练过程假设了封闭世界的设置，这可能在实际部署中引发严重的安全问题。例如，如果一个分割模型将一个未知对象（例如丢失的货物）错误地分类为道路，自动驾驶汽车可能会发生严重事故。通过将语义分割与密集异常检测相结合，可以缓解这些危险。由此产生的密集开放集识别模型由于能够在异常像素上拒绝决策而更适用于实际应用。以前的密集异常检测方法要么使用生成模型，要么使用判别模型。生成方法基于密度估计[6]或图像重构[36,4]。判别方法使用分类置信度[23]、二分类器[2]或贝叶斯推断[29]。这两种方法展示了不同的失效模式。生成检测器会不准确地分散概率体积[41,47,38,53]或依赖于有风险的图像重构。另一方面，判别检测器假设在输入空间的全部范围上进行训练，甚至包括未知的未知物体[25]。在这项工作中，我们将这两种方法结合成一个混合异常检测器。所提出的方法将标准的语义分割模型补充了两个额外的预测：i）非归一化的密集数据似然ˆp ( x ) [6]，和 ii）密集数据后验概率 P ( d in | x )[2]。这两个预测都需要使用负数据进行训练[25,2,4,10]。将这两个输出结合起来可以得到一个准确而高效的密集异常检测器，我们称之为DenseHybrid。我们的贡献总结如下。我们提出了第一个允许端到端训练并在像素级别操作的混合异常检测器。我们的方法将似然评估和区分能力与现成的负数据集相结合。我们的实验证明，尽管计算开销很小，但可以实现准确的异常检测。我们通过DenseHybrid来补充语义分割，实现密集开放集识别。我们根据一种新的性能度量指标open-mIoU，报告了最先进的密集开放集识别性能。0图1. 所提出的DenseHybrid方法在标准数据集上的定性性能。上：输入图像。下：所提出的异常分数的密集图+v:mala2255获取更多论文0密集开放式识别的混合异常检测 302 相关工作0检测与训练数据生成过程不符的样本是一个几十年来的问题[22]。在机器学习社区中，这个任务也被称为异常检测或离群值（OOD）检测[24]。早期的图像整体方法利用最大softmax概率[24]、输入扰动[34]、集成[31]或贝叶斯不确定性[40]。更鼓舞人心的性能是通过针对广泛的负数据集进行判别训练[14,25,2,37]或适当训练的生成模型[32,21,54]来实现的。另一方面，通过生成模型估计可能性来检测异常。令人惊讶的是，这项研究发现，异常可能导致比内部样本更高的可能性[41,47,53]。进一步的研究表明，可以希望在群体异常检测中获得更好的性能[27]，然而，这种情况的实际重要性较小。可以鼓励生成模型在负训练数据中分配低可能性[25]。这种做法可以减轻概率体积的次优分散[38]。图像整体异常检测方法可以根据不同的成功程度进行密集预测的适应。现有的生成方法都无法提供密集的可能性估计。另一方面，诸如最大softmax和针对负数据的判别训练等概念可以轻松地适用于密集预测。许多密集异常检测器是在正常训练图像上粘贴负面图像（例如ImageNet、COCO、ADE20k）获得的混合内容图像上训练的[2,10,4]。判别性异常检测可以通过专用的OOD头产生，该头与标准分类头共享特征。共享特征可以提高OOD性能，并且与基线语义分割模型相比，计算开销可以忽略不计[2]。最近的方法[10]鼓励负像素中的大softmax熵。异常也可以在特征空间中识别[6]。然而，这种方法由于子采样特征表示和特征坍塌[38,1]而使得小物体的检测变得复杂。与先前的方法正交的是，异常检测器可以根据输入与重新合成的图像之间的差异实现[36,4,50]。重新合成是由一个以预测标签为条件的生成模型执行的。然而，这种方法只适用于均匀背景（如道路）[36]。此外，它增加了显著的计算开销，使其不适用于实时应用。我们对密集异常检测的方法是判别性检测和可能性评估的混合组合。判别性OOD检测已经在[2,25,14]中引入。与所有这些方法相反，我们通过与可能性测试的协同作用改进了判别性OOD检测。通过将生成模型拟合到判别特征上，我们实现了密集可能性评估[6]。然而，由于两阶段训练，他们的方法容易受到特征坍塌[38,1]的影响。此外，由于子采样，小的离群值的检测也受到威胁。与他们的方法相反，我们的方法允许与标准密集预测模型进行联合训练，并在完整分辨率上进行异常检测。4M. Grci´c et al.p(y, x) = 1Z ˆp(y, x) := 1Z exp s,s = fθ2(qθ1(x)).(1)+v:mala2255获取更多论文0我们通过将逻辑重新解释为非归一化联合可能性[20]来进行密集可能性评估。然而，由于Langevin采样在大分辨率下的不可解性，该方法[20]对于密集预测完全不适用。我们重新制定了他们的方法，以允许在混合内容图像上进行训练，并且显示这种适应性通过阻止通过不可解的归一化常数Z(θ)进行反向传播，从而极大地简化了训练过程。据我们所知，所提出的设计提供了第一个适用于端到端训练的密集可能性评估方法。我们通过将我们的混合异常分数与标准语义分割预测相结合，构建了一个开放式识别模型。得到的模型适用于同时检测异常和识别内部场景。我们注意到，标准的密集识别性能指标[16]不考虑异常样本的准确性。这并不令人意外，因为离群像素只在最近的密集预测基准[52,5,9]中引入。此外，先前关于存在异常像素的辨别性工作更注重算法的鲁棒性而不是识别性能[52]。因此，我们提出了一种新颖的异常感知度量（open-mIoU），它在内部样本和离群样本中都衡量了预测质量，类似于先前的图像整体度量[48,46]。03稠密识别与混合异常检测器0我们提出了一种基于非标准化数据似然和数据集后验的稠密异常检测的混合算法（第3.1节）。所提出的混合异常检测器扩展了标准的稠密分类器，形成了稠密开放集识别模型（第3.2节）。所得到的识别模型在混合内容图像上进行训练。03.1稠密预测的混合异常检测0我们用随机变量x表示RGB图像。变量y表示相应的像素级预测，而二进制随机变量d模拟给定像素是否属于内点或外点。我们用不带下划线的方式表示随机变量的实现。因此，P(y|x)是P(y=y|x=x)的简写。我们用d in表示内点，用d out表示外点。因此，P(din|x)表示给定像素是内点的稠密后验概率[25,2]。相反，p(x)表示以给定像素为中心的补丁的稠密似然。我们基于判别模型P(y|x)=softmax(fθ2(qθ1(x)))[20]重新解释了逻辑回归s的含义，将其解释为输入和标签的非标准化联合对数密度：0注意，qθ1根据其产生的预逻辑t，fθ2计算逻辑回归s。因此，qθ1和fθ2构成了标准的判别模型。ˆp(y,x)表示数据x和标签y的非标准化联合密度，而Z表示相应的) =p(y, x) = 1Z�yˆp(y, x) = 1Z�iexp si.(3)P(din|x) := σ(gγ(qθ1(x))).(4)+v:mala2255获取更多论文0稠密开放集识别的混合异常检测 50归一化常数。通常情况下，计算Z是不可行的，因为它需要对y和x的所有实现评估非标准化分布。在这项工作中，我们方便地避免评估Z以实现高效的训练和推理。标准的判别预测可以通过贝叶斯规则轻松获得：0P(y|x) = p(y,x) �0i exp s i = softmax(s) . (2)0因此，我们可以通过K类上的标准闭世界判别学习来恢复非标准化联合密度(1)。此外，我们可以与主要的判别任务共享逻辑回归，并利用预训练的分类器。我们可以通过边缘化y来表示密集似然p(x)：0p(x) = �0有人可能会主张直接使用p(x)来检测异常：如果给定的输入在p(x)下不太可能，那么它很可能是一个异常值。然而，由于最大似然优化倾向于过度泛化[38]，这种方法在实践中可能效果不佳。简单来说，一些离群值的似然性可能高于内点[47,41]。我们通过在训练过程中最小化负样本的似然性来避免这种行为[25]。除了逻辑回归的重新解释，我们根据预逻辑激活qθ1(x) [2]定义了数据集后验P(d in|x)的非线性变换：0在我们的情况下，函数g是预逻辑的BN-ReLU-Conv1x1，后面跟着一个sigmoid非线性变换。可以仅通过P(d in|x)[13]检测异常：内点样本应该产生内点数据集的高后验概率。然而，我们的实验证明，与我们的混合方法相比，这种方法是次优的。图2说明了生成式和判别式异常检测器在一个玩具问题上的缺点。蓝色点表示内点数据，绿色三角形表示用于训练的负样本数据，红色方块表示异常的测试数据。模型P(din|x)无法区分内点，如果训练过程中看到的负样本数据不足以覆盖样本空间（左图）。另一方面，模型p(x)倾向于在样本空间上不准确地分布概率体积[38]（中图）。将判别式和生成式方法结合成混合检测器可以减轻上述限制（右图）。我们的混合异常检测器基于判别式数据集后验P(din|x)和生成式数据似然p(x)。我们将新的混合异常得分表示为P(d out|x) = 1 - P(din|x)和p(x)之间的对数比率：0s(x) := ln P(d 0p(x) = ln P(d out | x) − ln ˆ p(x) + ln Z (5)0� = ln P(d out | x) − ln ˆ p(x) . (6)6M. Grci´c et al.Inlier dataNegative training dataOutlier test dataFPR=9.5%LogSigmg(t)LogSumExpDenseHybrids(x) = -+v:mala2255获取更多论文0判别生成混合0图2. 玩具数据集上的异常检测。判别方法（左）模拟了 P(d in |x)。如果负训练数据集没有涵盖测试异常的所有模式，则会失败。生成方法（中）模拟了p(x)。由于过度泛化[38]，它经常将高概率分配给测试异常。混合方法在判别建模和生成建模之间实现了协同效应0我们可以忽略 Z，因为排名性能[24]对于单调变换（如取对数或加常数）是不变的。对于 s(x)的其他公式也可能是有效的，这是一个有趣的未来研究方向03.2 基于混合异常检测的稠密开集识别0图3说明了使用提出的开集识别设置进行推理的过程。RGB输入被馈送到一个混合稠密模型，产生预对数激活 t 和逻辑值 s 。然后，我们得到闭集类后验概率 P(y | x) =softmax(s)（用黄色表示）和非归一化数据似然 ˆp(x)（用绿色表示）。一个独立的头部 g 将预对数 t 转换为数据集后验概率 P(d out |x)。异常分数 s(x)是后两个分布之间的对数比。得到的异常图被阈值化并与判别输出融合成最终的稠密开集识别图0q(x) 软最大值0阈值0融合0P(y | x)0p(x)0RGB输入闭集分割0开集分割0稠密异常图0稠密分类器0图3.提出的稠密开集识别方法。我们的异常分数是从混合模型得出的输出的对数比。我们将阈值化的异常分数与闭集分割图融合，得到开集分割图= − Ex,y∈Din[sy] + Ex,y∈Din[lniexp si].(8)= − Ex∈Dinlnexp(si)+ Ex∈Dout(11)0稠密开集识别的混合异常检测 70开发的混合模型旨在实现生成建模和判别建模之间的协同效应。然而，提出的混合解释需要特定的训练目标。稠密类后验概率需要对内点数据 D in 进行判别损失：0L cls ( θ ) = E x , y ∈ D in [ − ln P (y | x)] (7)0判别损失（7）对应于封闭世界中的标准训练。我们将负数据 D out引入训练过程，以确保 P(d in | x) 和 p(x)的期望行为[25,2]。这两个分布在负像素中应该产生较低的概率。我们建议训练 p(x)来最大化内点的似然，并最小化离群点的似然。我们将所需损失的上界推导如下：0L x ( θ0= E x ∈ D in [ − ln ˆ p(x)] + �� ln Z − E x ∈ D out [ − ln ˆ p(x)]− �� ln Z ()0空0空0ln 0i exp（s i）0�0≤ - E x，y ∈ D in [s y]+ E x ∈ Dout [ln �0i exp（s i ）]。（12）0请注意，我们放弃对归一化常数 Z 进行反向传播，并根据以下不等式推导出上界：0ln 0i exp s i ≥ max i s i ≥ s y。（13）0不等式（13）的证明可以通过回忆对数和指数求和是最大函数的平滑上界来轻松推导出来。通过比较标准分类损失（7）和上界（12），我们意识到最小化标准分类损失会增加内点像素的 p（x）。实际上，最小化 softmax 输出的负对数会增加正确类别的 logit值。或者，p（x）可以仅在内点上进行训练[45,15,20]。这将需要通过 MCMC抽样和反向传播来进行样本幻觉，并进入相应的 Z近似值。对于大图像，这样的过程是不可行的。因此，我们选择处理负样本而不是虚构的样本，并优化所提出的损失 Lx（θ）。我们使用标准鉴别损失[2]来训练数据集后验概率 P（d in | x）：0L d（θ，γ）= E x ∈ D in [- ln P（d in | x）]+ E x ∈ D out [- ln（P（d out |0通过合并损失 L cls，L x 和 L d，我们得到最终损失：0L（θ，γ）= - E x，y ∈ D in [ln P（y | x）+ ln P（d in |x）]0- β ∙ E x ∈ D out [ln（P（d out | x）- ln ˆp（x）]。（15）0+v:mala2255获取更多论文8M. Grci´c et al.LLxLd0超参数 β 控制负数据对主分类任务的影响。请注意，最终损失（15）在正像素中省略了L x （12）中的第一项。我们之所以选择这样做，是因为ˆ p（x）通过 L cls隐式优化。图4说明了所提出的开放集识别模型的训练过程。我们通过将负实例粘贴在标准训练图像上来准备训练图像。将得到的混合内容图像[2]输入混合模型。我们使用软最大值获得分类输出 P（y | x）。通过求和指数运算符获得未归一化的似然度ˆp（x）。通过从预对数激活分支获得 p（d in | x）。模型输出通过应用鉴别损失 L cls（7），似然损失 L x （12）和数据集后验损失 L d（14）进行训练。如所提出的，这些损失方便地合并为单一损失 L（θ，γ）（15）。0q(x)0软最大值0Sigmg(t)0求和指数0道路图像0负对象0粘贴0混合内容图像真实值0f(x) t s0图4.所提出的开放集识别模型的训练过程。混合内容图像被输入到具有三个输出的开放集模型中。每个输出根据复合损失（15）进行优化。04 测量密集开放集性能0用于异常分割的测试数据集要么仅测量异常检测器的性能[44,9]，要么仅报告分类性能[5]。在后一种情况下，报告的分割性能下降通常可以忽略不计，并且可以通过将模型容量分配给异常检测来解释。我们将展示异常检测器对分割性能的真实影响只能在开放世界中清晰地看到。而且，这种影响比在封闭世界中可见的小的性能下降更为严重。为了正确衡量开放集识别性能，我们首先选择异常检测器达到95%TPR的阈值。这确保了对识别模型的高安全标准。然后，我们根据阈值化的异常图覆盖引起关注的像素的分类。得到的识别图具有 K + 1 个标签。我们计算识别性能在0+v:mala2255获取更多论文open-IoUk =TPkTPk + FPowk + FNowk, FPowk≠FPik, FNowk≠123TPA FPAFNA TNA1010TPRA = TPATPA + FNAΣi = 1i ≠ kK+1FNowk=FNikopen-IoUk = TPkTPk + FPowk + FNowk............FN2kFN3kFP1k FP2k FP3kFPKk FPAkFNKkFNAkFN1kTPk123............FN2kFN3kFP1k FP2k FP3kFPKkFNKkFN1kTPk........................AΣi = 1i ≠ kK+1FPowk=FPikΣi = 1i ≠ kKFNk=FNikIoUk = TPkTPk + FPk + FNkΣi = 1i ≠ kKFPk=FPik0用于密集开放集识别的混合异常检测 90使用开放交并比（open-IoU）进行开放世界的识别。对于第k类，我们可以计算如下所示的开放IoU：0K+10i ≠ ki =10K+10i ≠ ki =10FN i k (16)0与标准IoU公式不同，开放IoU还考虑了由于不完美的异常检测器引起的假阳性和假阴性。然而，我们仍然将开放IoU平均值应用于K个内点类别。这意味着使用完美的异常检测器的识别模型将与封闭世界中的分割性能相匹配。如果我们将IoU平均值应用于K+1个类别，这个属性将无法保持。图5（右）显示了开放世界的混淆矩阵。不完美的异常检测通过增加假阳性（用黄色表示）和假阴性（用红色表示）影响识别性能。封闭mIoU与K个内点类别上的平均开放IoU之间的差异揭示了由于不准确的异常检测而导致的性能损失。01 2 3 k K K+10k0K0K+10闭集分类0OOD检测0密集开放集识别01 2 3 k K0k0K0图5.提出的开放交并比（open-IoU）考虑了异常像素中的错误分类，以准确衡量开放世界中的密集识别性能0使用提出的开放IoU来衡量性能需要具有K+1个标签的数据集。创建这样的分类体系需要大量资源。目前，只有StreetHazards [23]提供了用于测量开放IoU的适当分类体系。05 实验0我们报告了提出的DenseHybrid方法在密集异常检测和开放集识别方面的性能，并将其与现有技术进行了比较。0+v:mala2255获取更多论文MethodAux Img AnomalyTrack ObstacleTrack LAF-noKnowndata rsyn. APFPR95APFPR95APFPR95SynBoost [4]✓✓56.461.971.33.281.74.6Image Resyn. [36]✗✓52.325.937.74.757.18.8JSRNet [50]✗✓33.643.928.128.974.26.6Road Inpaint. [35]✗✓--54.147.182.935.8Embed. Dens. [5]✗✗37.570.80.846.461.710.4ODIN [34]✗✗33.171.722.115.352.930.0MC Dropout [29]✗✗28.969.54.950.336.835.6Max softmax [24]✗✗28.072.115.716.630.133.2Mahalanobis [33]✗✗20.087.020.913.155.012.9Void Classifier [5]✓✗36.663.510.441.54.847.0DenseHybrid (ours)✓✗78.09.887.10.278.72.1+v:mala2255获取更多论文010 M. Grci´c等人0我们还探讨了距离的影响，展示了提出的模块的计算要求，并对设计选择进行了消融分析。05.1 基准和数据集0我们在密集异常检测的标准基准上评估性能。Fishyscapes[5]考虑了城市场景中的一部分LostAndFound[44]和Cityscapes验证图像上的异常注入（FSStatic）。SegmentMeIfYouCan（SMIYC）[9]摆脱了异常注入。相反，适当的图像是从现实世界中收集的，并根据异常大小分组为AnomalyTrack（大）和ObstacleTrack（小）。此外，该基准还包含了所有LostAndFound图像。不幸的是，这两个基准只有二进制标签，这使得它们不足以衡量第4节中提出的识别性能。StreetHazards[23]是由CARLA虚拟环境创建的合成数据集。模拟环境可以实现平滑的异常注入和低成本的标签提取。因此，该数据集包含K+1个标签，适用于同时测量异常检测和密集识别。05.2 密集异常检测0表1显示了提出的混合异常检测器在SMIYC基准测试[9]上的性能。DenseHybrid在AnomalyTrack和ObstacleTrack上的表现远远超过了现代方法。此外，提出的异常检测器在LostAndFound上实现了最佳的FPR。0表1.在SMIYC基准测试[9]上的性能评估。DenseHybrid在异常和障碍物跟踪方面的表现远远超过了现代方法，同时在LostAndFound上实现了最佳的FPR。Hybrid Anomaly Detection for Dense Open-set Recognition11Table 2 shows performance of the proposed DenseHybrid on Fishyscapes [5].Our anomaly detector achieves the best results on FS LostAndFound, and thebest FPR on FS Static. We achieve these results while having negligible impacton classification task in closed-world. However, in the next section we showthat the impact of anomaly detection to recognition performance is much moresignificant than in the closed world.Table 2.Performance evaluation on the Fishyscapes benchmark [5]. DenseHybridachieves the best performance on FS LostAndFound and the best FPR on FS StaticMethodAux Img LostAndFoundStaticClosed worlddata rsyn. APFPR95AP FPR95 Cityscapes mIoUSynBoost [4]✓✓43.215.872.618.881.4Image Resyn. [36]✗✓5.748.129.627.181.4Standardized ML [28]✗✗31.121.553.119.680.3Embed. Dens. [5]✗✗4.724.462.117.480.3Max softmax [24]✗✗1.7744.912.939.880.3Dirichlet prior [39]✓✗34.347.484.630.070.5OOD Head [2]✓✗30.922.284.010.377.3Void Classifier [5]✓✗10.322.145.019.470.4Mutual information [40]✓✗9.838.548.715.573.8DenseHybrid (ours)✓✗43.96.272.35.581.0Table 3 explores sensitivity of anomaly detection with respect to distancefrom the camera. We perform all these experiments on LostAndFound since itincludes disparity maps. Still, due to errors in available disparities, we limitour analysis to the first 50 meters from the camera. The proposed DenseHybridapproach achieves accurate results even at large distances from the vehicle.Table 3. Anomaly detection performance at different distances from camera. OurDenseHybrid based on DeeplabV3+ with WRN38 backbone [55] accurately detectsanomalies at different rangesMethodMetricRange in meters5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50Max-softmax [24]AP28.7 28.826.025.129.026.229.631.733.7FPR95 16.4 29.728.844.241.347.844.743.245.3Max-logit [23]AP76.1 73.978.269.672.670.271.074.073.9FPR95 5.416.25.912.89.510.09.89.811.0SynBoost [4]AP93.7 78.776.970.065.658.559.860.053.3FPR95 0.217.725.023.318.827.425.425.829.9DenseHybrid (ours)AP90.7 89.8 92.9 89.1 89.5 87.7 85.0 85.6 82.1FPR95 0.31.10.61.41.42.53.74.76.3+v:mala2255获取更多论文12M. Grci´c et al.5.3Dense Open-set RecognitionBy fusing a properly thresholded anomaly detector with the dense classifier, weobtain a dense open-set recognition model (Fig. 3). The resulting model detectsanomalous scene parts, while correctly classifying the rest of the scene.To measure the dense recognition performance, we create two test folds basedon towns t5 and t6 from StreetHazards test. Then, we select anomaly thresholdon t6 and use it to measure the proposed open-mIoU on t5. We switch the foldsand repeat the procedure. We compute the weighted average based on imagecount to obtain the final test set open-mIoU.Table 4 shows performance of our dense recognition models on StreetHaz-ards. The left part of the table considers anomaly detection where DenseHybridachieves the best performance. The right part of the table considers dense recog-nition performance. Our model outperforms other contemporary approaches de-spite lower classification performance in the closed world. Note that the per-formance drop between the closed and the open set is significant. The modelsachieve over 60% mIoU in closed world while the open world performance peeksat 46%. Hence, we conclude that even the best anomaly detectors are still in-sufficient for matching the closed world performance in open-world. Researchersshould strive to close this gap in order to improve the safety of recognitionsystems in the real world.Table 4. Performance evaluation on StreetHazards [23]. DenseHybrid achieves the bestanomaly detection performance. The corresponding open-set recognition model yieldsthe best performance measured by open-mIoU (Sec. 4)MethodAux. Anomaly detection Closed worldOpen worlddata AP FPR95 AUCIoUo-IoU-t5 o-IoU-t6 o-IoUSynthCP [51]✗9.328.488.5----Dropout [29][51]✗7.579.469.9----TRADI [19]✗7.225.389.2----OVNNI [18]✗12.622.291.254.6---SO+H [21]✗12.725.291.759.7---DML [8]✗14.717.393.7----MSP [24]✗7.527.990.165.032.740.235.1ML [23]✗11.622.592.465.039.644.541.2ODIN [34]✗7.028.790.065.026.433.928.8ReAct [49]✗10.921.292.362.733.036.234.0Energy [37]✓12.918.293.063.341.744.942.7Outlier Exposure [25]✓14.617.794.061.743.744.143.8OOD-Head [2]✓19.756.288.866.633.734.333.9OH*MSP [3]✓18.830.989.766.643.344.243.6DenseHybrid (ours)✓30.2 13.095.663.046.145.345.8+v:mala2255获取更多论文Hybrid Anomaly Detection for Dense Open-set Recognition13Figure 6 visualises dense anomaly and recognition maps on StreetHazards.Our recognition model significantly outperforms the max-logit baseline [23].RGB InputDenseHybrid-anomalyDenseHybrid-recognitionMax logitGround truthFig. 6. Visualisation of dense open-set recognition performance on StreetHazards.DenseHybrid significantly outperforms the max-logit baseline [23]5.4Inference speedTable 5 shows computational overhead of the proposed DenseHybrid anomalydetector over the baseline segmentation model on two megapixels images. Dense-Hybrid has negligible computational overhead of 0.1 GFLOPs and 2.8ms. Ourresults are averaged over 200 runs on NVIDIA RTX3090. These experiments alsosuggest that image resynthesis is not applicable for real-time inference.Table 5. Computational overhead of the proposed DenseHybr

下载后可阅读完整内容，剩余1页未读，立即下载