简单有效的标准化最大对数方法用于识别城市场景中的意外道路障碍物

158 浏览量更新于2023-10-13 收藏 19.04MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Identifying unexpected objects on roads in semantic seg-mentation (e.g., identifying dogs on roads) is crucial insafety-critical applications. Existing approaches use im-ages of unexpected objects from external datasets or re-quire additional training (e.g., retraining segmentation net-works or training an extra network), which necessitate anon-trivial amount of labor intensity or lengthy inferencetime. One possible alternative is to use prediction scores ofa pre-trained network such as the max logits (i.e., maximumvalues among classes before the ﬁnal softmax layer) for de-tecting such objects. However, the distribution of max logitsof each predicted class is signiﬁcantly different from eachother, which degrades the performance of identifying un-expected objects in urban-scene segmentation. To addressthis issue, we propose a simple yet effective approach thatstandardizes the max logits in order to align the differentdistributions and reﬂect the relative meanings of max log-its within each predicted class. Moreover, we consider thelocal regions from two different perspectives based on theintuition that neighboring pixels share similar semantic in-formation. In contrast to previous approaches, our methoddoes not utilize any external datasets or require additionaltraining, which makes our method widely applicable to ex-154250标准化最大对数：一种简单而有效的方法，用于识别城市场景分割中的意外道路障碍物0Sanghun Jung *1 Jungsoo Lee *1 Daehoon Gwak 1 Sungha Choi 2 Jaegul Choo 101 KAIST AI 2 LG AI Research01 { shjung13, bebeto, daehoon.gwak, jchoo } @kaist.ac.kr 2 shachoi@korea.ac.kr0s0（a）初始预测（b）意外检测到的0（c）最终预测0输入图像0图1：我们的方法在识别道路上的意外障碍物方面的结果。（a）以前的分割网络将意外障碍物（例如狗）分类为预定义类别之一（例如道路），这可能从安全关键的角度来看是有害的。（b）通过我们的方法，我们检测到了意外的障碍物。（c）最后，我们可以获得识别到的带有意外障碍物（青色对象）的分割标签的最终预测。0摘要0*表示相等的贡献0在语义分割中识别道路上的意外对象（例如，在道路上识别狗）对于安全关键的应用至关重要。现有的方法使用来自外部数据集的意外对象图像或需要额外的训练（例如，重新训练分割网络或训练额外的网络），这需要大量的劳动强度或漫长的推理时间。一种可能的替代方法是使用预训练网络的预测分数，例如最大对数（即在最终softmax层之前的各个类别中的最大值）来检测这些对象。然而，每个预测类别的最大对数的分布明显不同，这降低了在城市场景分割中识别意外对象的性能。为了解决这个问题，我们提出了一种简单而有效的方法，通过标准化最大对数来对齐不同的分布并反映每个预测类别内最大对数的相对含义。此外，我们从两个不同的角度考虑局部区域，基于相邻像素共享相似的语义信息的直觉。与以前的方法相比，我们的方法不使用任何外部数据集或需要额外的训练，这使得我们的方法广泛适用于现有的预训练分割模型。01. 引言0最近的研究[7, 8, 18, 34, 36, 37,11]在语义分割方面专注于提高城市场景图像的分割性能。尽管取得了这样的最新进展，但这些方法无法识别意外的对象（即在训练期间未包含在预定义类别中的对象），主要是因为它们将所有像素预测为预定义类别之一。解决这个问题对于安全关键的应用（如自动驾驶）尤为重要。如图1所示，错误地将道路上的狗（即意外的对象）预测为道路不会停止自动驾驶车辆，这可能导致路上有动物被撞死。从这个安全关键的角度来看，应该将狗检测为意外的对象，这作为自动驾驶车辆处理这些对象的起点（例如，是否停车或绕过狗）。一些研究[3, 22, 21, 4, 29, 2,13]解决了在道路上检测此类意外对象的问题。一些应用了现有的预训练分割模型。这种简单直接的方法在公开可用的Fishyscapes Lost &Found排行榜上取得了新的最佳性能。我们的代码可以在此链接1上公开获取。01 https://github.com/shjung13/Standardized-max-logits154260最大A0最小值意外分布内0重叠0最大softmax概率0FPR 95% - 34.10% AP - 14.24%0最大对数几率标准化最大对数几率0图2：FishyscapesStatic中MSP、最大对数几率和标准化最大对数几率的箱线图。X轴表示按训练阶段像素出现次数排序的类别。Y轴表示每种方法的值。红色和蓝色分别表示分布在分布内像素和意外像素中的值。每个柱状图的下限和上限表示Q1和Q3，点表示其预测类别的均值。灰色表示两组的重叠区域。灰色区域的不透明度与TPR为95%时的FPR成比例。以类别为单位标准化最大对数几率明显降低了FPR。0一些方法[2, 4]利用外部数据集[30,20]作为意外对象的样本，而其他方法[22, 33, 21,27]则利用图像重合模型擦除这些对象的区域。然而，这些方法需要相当大的劳动强度或需要较长的推理时间。另一方面，仅利用预训练模型[16, 19,17]提出了简单的方法，用于在图像分类中检测来自不同分布的样本，即检测与训练集不同分布的图像的任务。基于正确分类的图像通常具有比OoD图像更高的最大softmax概率（MSP）的直觉[16]，MSP被用作异常分数（即用于检测OoD样本的值）。另外，提出了利用最大对数几率[15]（即在最终softmax层之前各类别的最大值）作为异常分数的方法，这种方法在语义分割中检测异常对象的性能优于使用MSP。需要注意的是，高的预测分数（例如MSP和最大对数几率）表示低的异常分数，反之亦然。然而，直接使用MSP[16]或最大对数几率[15]作为异常分数存在以下限制。关于MSP[16]，softmax函数具有快速增长的指数特性，会产生高度自信的预测。预训练网络可能对OoD样本非常自信，这限制了使用MSP来检测异常样本的性能[19]。对于最大对数几率[15]，如图2所示，每个预测类别的最大对数几率具有自己的范围。由于这个事实，在分布内对象中，被预测为特定类别（例如道路）的意外对象的最大对数几率超过其他类别（例如火车）的最大对数几率。这可能会降低在使用相同阈值的评估指标（例如AUROC和AUPRC）上检测意外对象的性能。在这项工作中，受到这一发现的启发，我们提出了标准化0在一种以类别为单位的方式中标准化最大对数几率，称为标准化最大对数几率（SML）。标准化最大对数几率使得每个预测类别中的最大对数几率的分布对齐，因此能够反映类别内值的相对含义。这降低了使用单一阈值时的误报（即将分布内的对象错误地检测为意外对象，在图2中以灰色区域突出显示）。0此外，我们从两个不同的角度进一步提高了识别意外障碍的性能。首先，我们消除了边界区域中的误报，这些区域的预测类别从一个类别变为另一个类别。由于类别的变化，边界像素的预测分数往往比非边界像素具有较低的预测分数（即较高的异常分数）[32,1]。在这方面，我们提出了一种新颖的迭代边界抑制方法，通过用相邻的非边界像素的较低异常分数替换边界区域的较高异常分数来消除这些误报。其次，为了消除边界和非边界区域中剩余的误报，我们使用相邻像素对其进行平滑处理，基于这样一个直觉，即局部区域中的像素之间存在局部一致性。我们将这个过程称为扩张平滑。0我们工作的主要贡献如下：0•我们提出了一种简单而有效的方法，用于在城市场景的语义分割中识别道路上的意外对象。0•我们提出的方法可以轻松应用于各种现有模型，因为我们的方法不需要额外的训练或外部数据集。0• 我们在公开可用的Fishyscapes Lost & Found Leaderboard2上取得了新的最先进性能，超过了以前的方法，具有较大的边际和可忽略的计算开销，同时不需要额外的训练和OoD数据。02 https://�shyscapes.com/154270（a）（b）（c）0最大logit 标准化的最大logit 抑制边界平滑结果输入图像0预训练网络0提出的方法0边界0意外0不规则0意外类别道路类别地形类别0分布内的意外0图3：我们方法的概述。我们从分割网络中获取最大logits，并使用从训练样本中获得的统计数据（a）对其进行标准化。然后，我们迭代地将边界区域的标准化最大logits替换为周围非边界像素的logits（b）。最后，我们应用扩张平滑来考虑广泛感受野中的局部语义（c）。0而不需要额外的训练和OoD数据，同时具有较大的边际和可忽略的计算开销。02. 相关工作 2.1. 城市驾驶场景的语义分割0最近的研究[7, 8, 18, 34, 36, 37, 11, 5, 28,26]努力提高城市场景的语义分割性能。研究[18,34]考虑了城市场景中的多样尺度变化，或者利用了城市场景图像中固有的几何和位置模式[8]。此外，一些研究[5, 28,26]提出了更高效的架构来提高推理时间，这对于自动驾驶至关重要。尽管取得了进展，这些模型无法识别意外对象，这是安全关键应用的另一个重要任务。鉴于从安全关键角度看这样一个任务的重要性，我们专注于检测城市场景分割中的意外障碍物。02.2. 在语义分割中检测意外对象0一些研究[2, 4,3]在训练阶段利用来自外部数据集的意外对象样本。例如，假设从ImageNet数据集[30]中裁剪的对象是异常对象，它们被叠加在原始训练图像上[2]（例如，Cityscapes），以提供意外对象的样本。类似地，另一项先前的工作[4]利用来自COCO数据集[20]的对象作为意外对象的样本。然而，这些方法需要使用额外的数据集重新训练网络，这妨碍了直接利用给定的预训练分割网络。其他工作[22, 33, 21,27]利用图像重合成（即从分割预测中重建图像）来检测意外对象。基于图像重合成模型无法重建带有意外对象的区域的直觉，这些研究使用原始图像与去除了这些对象的重建图像之间的差异。然而，利用额外的图像重合成模型来检测意外对象需要较长的推理时间，这在安全关键应用中至关重要。0语义分割。在实际应用中，如自动驾驶，检测到意外对象应该在实时中完成。考虑到这些问题，我们提出了一种简单而有效的方法，可以应用于给定的分割模型，而无需额外的训练或外部数据集。03. 提出的方法本节介绍了我们用于检测意外道路障碍物的方法。我们首先介绍如何在第3.2节中对最大logits进行标准化，并解释如何在第3.3节中考虑局部语义。03.1. 方法概述如图3所示，我们首先获得最大logits并对其进行标准化，基于这样的发现，最大logits根据预测的类别具有自己的范围。这些不同的范围导致以某个类别预测的意外对象（蓝色框中的像素）具有比其他类别中的分布内像素更高的最大logit值（即更低的异常分数）。通过以类别为基础的方式对最大logits进行标准化来解决这个问题，因为这样可以反映每个预测类别内的相对含义。然后，我们移除边界区域中的误报（绿色框中的像素）。通常，边界像素中的误报预测得分低于相邻的分布内像素。我们通过使用相邻非边界像素的异常分数来迭代更新边界像素，从而减少这种误报。此外，存在一定数量的像素与其相邻像素的异常分数明显不同，我们将其称为异常像素（黄色框中的像素）。基于局部区域中像素之间存在局部一致性（即相邻像素共享相似语义）的直觉，我们应用具有广泛感受野的平滑滤波器。请注意，我们使用最终SML的负值作为异常分数。以下描述了我们如何在给定图像和预定义类别数量的情况下获得每个像素的最大logit和预测的过程。让 X ∈ R 3 × H × W 和 C表示输入图像和预定义类别的数量。logit输出 F ∈ R C × H× Wµc =�i�iσ2c =�i�iSh,w =Lh,⊗1 1 01 0 00 0 0⊗1 1 01 0 00 0 0⊗1 1 01 0 00 0 0…̸�154280预定义类别，其中 H 和 W 分别是图像的高度和宽度。logit输出 F ∈ R C × H × W0可以从softmax层之前的分割网络中获得。然后，最大logitL ∈ R H × W 和预测 ˆ Y ∈ R H × W 在每个位置 h，w上定义为0L h,w = max c F c,h,w (1)0ˆ Y h,w = arg max c F c,h,w , (2)0其中 c ∈ { 1 , ..., C } 。03.2. 标准化最大logits (SML)0如图2所示，通过以类别为基础的方式对最大logits进行标准化，可以使最大logits的分布对齐。为了进行标准化，我们从训练样本中获得类别 c 的均值 µ c 和方差 σ 2 c。通过公式（1）和（2）中的最大logit L h,w 和预测类别 ˆY h,w ，我们计算均值 µ c 和方差 σ 2 c ，计算公式如下0h,w 1 ( ˆ Y ( i ) h,w = c ) ∙ L ( i ) h,w0h,w 1 ( ˆ Y ( i ) h,w = c ) (3)0h,w 1 ( ˆ Y ( i ) h,w = c ) ∙ ( L ( i ) h,w − µ c ) 20h,w 1 ( ˆ Y ( i ) h,w = c ) , (4)0其中 i 表示第 i个训练样本，1(∙)表示指示函数。然后，我们通过获得的统计数据对最大logits进行标准化。在测试图像中，SML S ∈R H × W 在每个位置 h，w上定义为0σ ˆ Y h,w . (5)03.3. 增强局部语义0我们解释了如何利用局部语义应用迭代边界抑制和扩张平滑。03.3.1 迭代边界抑制0为了解决错误地将边界区域预测为误报和漏报的问题，我们迭代地抑制边界区域。图4说明了迭代边界抑制的过程。我们从边界的外部区域（绿色像素）逐渐将相邻非边界像素的SML传播到边界区域的内部区域（灰色像素）。具体而言，我们假设边界宽度为特定值，并通过在每次迭代中逐渐减小边界宽度来更新边界。该过程定义如下。给定第 i次迭代的边界宽度 r i 和语义分割输出0标准化最大对数几率0边界感知平均池化0更新得分0每次迭代的预测边界掩码0掩码提取迭代要更新的区域0图4：迭代边界抑制的工作原理。在标准化最大对数几率之后，我们仅使用非边界像素的SMLs（即边界感知平均池化）应用多次平均池化。边界掩码是从分割网络的预测输出中获得的。我们通过以下方式获得非边界掩码M(i)∈RH×W的每个像素h,w0M(i)h,w =0� 0，如果存在h′，w′使得ˆYh,w ≠ˆYh′,w′，否则，(6)0对于所有满足|h - h′| + |w - w′| ≤ri的h′,w′。接下来，我们在边界像素上应用边界感知平均池化，如图4所示。这仅对边界像素应用平均池化，使用邻近的非边界像素的SMLs。对于边界像素b及其感受野R，边界感知平均池化（BAP）定义为0BAP(S(i)R, M(i)R) =0h,wM(i0h,w M(i)h,w，(7)0其中，S(i)R和M(i)R表示S(i)和M(i)上的感受野R的补丁，(h,w)∈R枚举R中的像素。然后，我们使用新获得的值替换边界像素b上的原始值。我们通过在每次迭代中将边界宽度减小∆r =2来将此过程迭代地应用n次。我们还将感受野R的大小设置为3×3。此外，我们经验性地将迭代次数n和初始边界宽度r0设置为4和8。3.3.2膨胀平滑由于迭代边界抑制仅更新边界像素，因此未处理非边界区域中的不规则性。因此，我们通过使用基于局部区域中像素之间存在局部一致性的邻近像素对它们进行平滑处理来解决这些像素。此外，如果用于迭代边界抑制的相邻像素没有足够低或高的异常分数，即使在此过程之后仍可能存在保留为假阳性或假阴性的边界像素。在这方面，我们使用膨胀[35]扩大平滑滤波器的感受野，以反映边界区域之外的异常分数。154290模型额外训练使用OoD数据 mIoU FS Lost & Found FS Static0Seg.网络 Extra网络 AP ↑ FPR 95 ↓ AP ↑ FPR 95 ↓0MSP [16] � � � 80.30 1.77 44.85 12.88 39.83 Entropy [16] � � � 80.30 2.93 44.83 15.41 39.75 Density - Single-layer NLL [3] � � � 80.30 3.01 32.90 40.8621.29 kNN Embedding - density [3] � � � 80.30 3.55 30.02 44.03 20.25 Density - Minimum NLL [3] � � � 80.30 4.25 47.15 62.14 17.43 Density -Logistic Regression [3] � � � 80.30 4.65 24.36 57.16 13.39 Image Resynthesis [22] � � � 81.40 5.70 48.05 29.60 27.13 Bayesian Deeplab [25] � � � 73.809.81 38.46 48.70 15.50 OoD Training - Void Class � � � 70.40 10.29 22.11 45.00 19.40 Ours � � � 80.33 31.05 21.52 53.11 19.64 DiscriminativeOutlier Detection Head [2] � � � 79.57 31.31 19.02 96.76 0.29 Dirichlet Deeplab [24] � � � 70.50 34.28 47.43 31.3 84.600表1：与Fishyscapes排行榜上先前方法的比较。模型按照在Fishyscapes Lost &Found测试集上的AP得分排序。我们在不需要对分割网络或Fishyscapes Lost &Found数据集进行额外训练的方法中实现了最新的最佳性能。粗体字表示在不重新训练分割网络、训练额外网络和使用OoD数据的方法中，在其评估指标中具有最高性能。0对于平滑滤波器，我们使用高斯核，因为众所周知高斯核可以去除噪声[12]。给定标准差σ和卷积滤波器大小k，位置i，j处的核权重K∈Rk×k定义为0Ki,j = 102πσ2exp(-∆i2+∆j2)02σ2), (8)02是从中心位置i，j的位移。在我们的设置中，我们将核大小k和σ分别设置为7和1。此外，我们经验性地将膨胀率设置为6.4。4.实验本节描述了数据集、实验设置以及定量和定性结果。04.1. 数据集0Fishyscapes Lost & Found[3]是一个包含真实道路障碍物的高质量图像数据集。该数据集基于原始的Lost & Found [29]数据集。原始的Lost &Found是使用与Cityscapes[9]相同的设置收集的，Cityscapes是一个广泛使用的城市场景分割数据集。它包含具有37种意外道路障碍物和13种不同街道场景（例如不同的道路表面外观、强烈的照明变化等）的真实城市图像。Fishyscapes Lost &Found进一步提供了以下像素级注释：1）意外对象，2）具有Cityscapes[9]预定义类别的对象，以及3）空白（即既不属于预定义类别也不是意外对象的对象）区域。该数据集包括100张公共验证图像和275张用于基准测试的隐藏测试图像。0Fishyscapes Static [3]是基于Cityscapes[9]的验证集构建的。将PASCAL VOC[10]中的对象视为意外对象，它们被叠加在0通过使用各种混合技术将Cityscapes验证图像与特征匹配，我们将Cityscapes验证图像转换为Fishyscapes验证图像。该数据集包含30个公开可用的验证样本和1,000个用于基准测试的隐藏测试图像。0Road Anomaly[22]包含车辆在道路上遇到的异常危险的图像。它包含60张具有异常对象（例如动物、岩石等）的道路图像，分辨率为1280×720。该数据集具有挑战性，因为它包含各种驾驶环境，如不同尺度的异常对象和恶劣的道路条件。04.2. 实验设置0实现细节我们采用DeepLabv3+[6]作为我们的分割架构，使用ResNet101[14]作为主干网络，输出步幅设置为8。我们在Cityscapes[9]上训练我们的分割网络，这是一个广泛使用的城市场景分割数据集之一。我们对所有实验使用相同的预训练网络。0评估指标对于定量结果，我们通过接收器操作特性下的面积（AUROC）和平均精度（AP）来比较性能。此外，我们测量真正阳性率为95%时的假阳性率（FPR95），因为在高召回区域中的假阳性率对于安全关键应用非常重要。对于定性分析，我们使用真正阳性率为95%（TPR95）的阈值来可视化预测结果。0我们将我们的方法与Fishyscapes排行榜中报告的各种方法进行比较。我们还报告了在Fishyscapes验证集和RoadAnomaly上使用以前的方法的结果，这些方法不使用外部数据集或需要额外的训练以进行公平比较。此外，我们还将我们的方法与Fishyscapes排行榜中未报告的方法进行了比较。因此，我们FPR95 ↓154300模型 mIoU FS Lost & Found FS Static Road Anomaly0MSP [16] 80.33 86.99 6.02 45.63 88.94 14.24 34.10 73.76 20.59 68.44 Max Logit [15] 80.33 92.00 18.77 38.13 92.80 27.99 28.50 77.97 24.4464.85 Entropy 80.33 88.32 13.91 44.85 89.99 21.78 33.74 75.12 22.38 68.15 kNN Embedding - Density [3] 80.30 - 4.1 22.30 - - - - - - † SynthCP �[33] 80.33 88.34 6.54 45.95 89.90 23.22 34.02 76.08 24.86 64.69 Ours 80.33 96.88 36.55 14.53 96.69 48.67 16.75 81.96 25.82 49.740表2：Fishyscapes验证集和RoadAnomaly数据集中与其他基线方法的比较。†表示结果是使用我们的预训练骨干网络的官方代码获得的，�表示该模型需要额外的可学习参数。请注意，kNN Embedding - Density的性能是由Fishyscapes [3]团队提供的。0包括使用最大逻辑[15]和SynthCP[33]的先前方法，后者利用图像重合模型进行比较。请注意，SynthCP需要训练额外的网络。04.3. 评估结果0本节提供定量和定性结果。我们首先展示Fishyscapes数据集和RoadAnomaly的结果，然后与各种骨干网络进行比较。此外，我们通过与先前方法进行比较，报告计算成本和定性结果。04.3.1 Fishyscapes排行榜比较0表1显示了Fishyscapes Lost & Found和FishyscapesStatic测试集的排行榜结果。Fishyscapes排行榜通过检查方法是否需要重新训练分割网络或利用OoD数据来对方法进行分类。在这项工作中，我们在“AdditionalTraining”类别下添加了“Extra Network”列。“Extranetworks”指的是需要使用与主要分割任务不同的特定目标函数训练的额外可学习参数。利用额外网络可能需要较长的推理时间，这对于自动驾驶等实时应用来说可能是关键的。考虑到这一重要性，我们为评估添加了这个类别。0如表1所示，与不需要额外训练分割网络和外部数据集的先前模型相比，我们在Fishyscapes Lost &Found数据集上取得了新的最先进性能，差距很大。此外，我们在Fishyscapes Lost &Found中超过了6个先前方法，在FishyscapesStatic中超过了5个模型，这些模型至少属于其中一类。此外，正如之前的工作[3]中讨论的那样，使用额外的损失项重新训练分割网络会损害原始的分割性能（即mIoU），如表1中的Bayesian Deeplab [25]，Dirichlet Deeplab [24]和OoDTraining with voidclass所示。这个结果可以在Fishyscapes基准网站上公开获取。04.3.2 Fishyscapes验证集和Road Anomaly比较0为了公平比较，我们将我们的方法与不需要额外训练和OoD数据的先前方法在Fishyscapes验证集和RoadAnomaly上进行比较。如表2所示，我们的方法在这三个数据集上的表现明显优于其他先前方法。此外，我们的方法相比先前方法显著降低了FPR 95。04.3.3 定性分析图5可视化了以TPR为95%的像素检测到的意外对象（即白色区域）。使用MSP[16]和最大逻辑[15]的先前方法需要检测到大量的分布内像素作为意外。然而，我们的方法不需要。具体而言，在MSP[16]和最大逻辑[15]中，不太自信的区域（例如边界像素）被检测为意外。然而，我们的方法明显减少了这种误报，这可以通过白色区域数量的显著减少来确认。5. 讨论0在本节中，我们对我们提出的方法的影响进行了深入分析，并进行了割除研究。0模型 AUROC ↑ AP ↑ FPR 95 ↓0最大逻辑值 92.00 18.77 38.13 SML 96.54 27.61 15.46 SML + BSupp. 96.82 31.63 14.58 SML + D. Smoothing 96.70 36.00 15.65SML + B Supp. + D. Smoothing 96.89 36.55 14.530表3：我们提出的方法的割除研究。B Supp.和D.Smoothing分别指迭代边界抑制和扩张平滑。05.1. 割除研究0表3描述了我们的工作中每种提出的方法在Fishyscapes Lost &Found验证集上的效果。SML相对于使用最大逻辑值[15]实现了显著的性能提升。在SML上执行迭代边界抑制可以改善整体性能（即AP增加4%，FPR95减少1%）。另一方面，尽管AP增加，但在没有执行迭代边界抑制的情况下，在SML上执行扩张平滑会导致FPR95轻微增加。这个结果可能的原因如下。当没有执行迭代边界抑制时，扩张平滑会使用非边界像素的异常分数更新边界像素的异常分数。由于与边界相比，非边界像素的异常分数较低，这可能会增加假阳性。这个问题在执行扩张平滑之前执行迭代边界抑制来解决。在边界区域更新为相邻的非边界区域之后，扩张平滑可以提高整体性能，而不会出现这种错误传播。5.2. 分析Figure 5: Unexpected objects detected with TPR95. We compare our method with MSP [16] and max logit [15]. White pixelsindicate objects which are identiﬁed as unexpected objects. Our method signiﬁcantly reduces the number of false positivepixels compared to the two approaches.smoothing on SMLs without iterative boundary suppres-sion results in an unwanted slight increase in FPR95. Thefollowing is the possible reason for the result. When di-lated smoothing is applied without iterative boundary sup-pression, the anomaly scores of non-boundary pixels maybe updated with those of boundary pixels. Since the non-boundary pixels of in-distribution objects have low anomalyscores compared to the boundaries, it may increase falsepositives. Such an issue is addressed by performing itera-tive boundary suppression before applying dilated smooth-ing. After the boundary regions are updated with neighbor-ing non-boundary regions, dilated smoothing increases theoverall performance without such error propagation.5.2. AnalysismIoU (%)80.3319.2226.1968.65MSP86.334.0645.68MSP86.253.5045.03154310我们的最大逻辑值 MSP 图像0本节对分割性能的影响、与各种主干网络的比较以及计算成本的比较进行了深入分析。0模型原始 MSP 最大逻辑值我们的0表4：在Fishyscapes Lost & Found验证集上，以TPR95的非预期障碍物检测阈值为基准的Cityscapes验证集的mIoU。05.2.1 对分割性能的影响表4显示了在Cityscapes验证集上，当TPR95的检测阈值应用时的mIoU。通过应用检测阈值，分割模型预测了一定数量的非预期的分布像素0由于这些假阳性，所有方法的mIoU都从原始的80.33%下降。更具体地说，使用MSP[16]和最大逻辑值[15]会导致性能显著下降。另一方面，我们的方法即使在出色的非预期障碍物检测性能下，仍能保持合理的mIoU性能。这张表再次证明了我们的工作的实用性，因为它既在分割任务中显示了合理的性能，又在非预期障碍物检测任务中显示了合理的性能。0主干模型 mIoU AUROC ↑ AP ↑ FPR 95 ↓0MobileNet V2 [31]0最大逻辑值 91.89 7.15 36.240我们的 96.18 16.95 16.630Shuf�eNetV2 [23]0最大逻辑值 90.06 8.67 45.360我们的 95.26 14.42 23.170ResNet50 [14]0最大逻辑值 89.47 8.95 48.990我们的 95.24 18.54 19.570表5：在Fishyscapes Lost &Found数据集上与MSP和最大逻辑值的比较。主干网络使用输出步幅为16进行训练。05.2.2与各种主干网络的比较0由于我们的方法不需要额外的训练或额外的OoD数据集，因此我们的方法可以轻松地应用和使用在任何现有的预训练分割网络上。为了验证我们方法的广泛适用性，我们报告了使用154320包括MobileNetV2 [31]、Shuf�eNetV2 [23]和ResNet50[23]在内的各种主干网络。如表5所示，我们的方法在使用相同的主干网络时明显优于其他方法[16,15]，在AP方面有很大的改进。这个结果清楚地证明了我们的方法广泛适用于不同的主干网络。0模型 GFLOPs 推理时间（毫秒）0ResNet-101 [14] 2139.86 60.54 我们的方法（SML） 2139.8661.41 我们的方法（SML + B Prop.） 2140.01 74.66我们的方法（SML + B Prop. + D. Smoothing） 2140.12 75.02SynthCP [33] 4551.11 146.900表6：计算成本的比较。指标是在NVIDIA GeForce RTX3090GPU上使用图像尺寸为2048×1024时测量的。推理时间是在100次试验中平均计算的。5.2.3计算成本的比较为了证明我们的方法所需的计算成本非常小，我们报告了GFLOPs（即用于计算的浮点操作数）和推理时间。如表6所示，与原始分割网络ResNet-101[14]相比，我们的方法在GFLOPs和推理时间方面都只需要很少的计算成本。此外，在使用额外网络的几个研究中，我们与最近提出的一种利用图像重构模型的方法[33]进行了比较。与SynthCP[33]相比，我们的方法所需的计算成本大大降低。0模型 ∆ AUROC ↑ ∆ AP ↑ ∆ FPR 95 ↓0MSP + B. Supp. + D. S. -0.60 1.08 3.24 最大逻辑 + B. Supp. + D. S.-0.51 -1.45 2.60 SML + B. Supp. + D. S. 0.35 8.95 -0.930表7：在MSP、最大逻辑和SML上进行迭代边界抑制和扩张平滑后的度量增益比较。B Supp.和D.S分别表示迭代边界抑制和扩张平滑。05.3. 标准化最大逻辑的影响0表7描述了SML如何实现迭代边界抑制和扩张平滑。在其他方法上应用迭代边界抑制和扩张平滑并不能提高性能，甚至在MSP[16]和最大逻辑[15]的情况下会加剧性能下降。另一方面，当应用于SML时，它显著提高了性能。以下是这种观察的可能原因。如前所述，softmax层的过度自信提高了异常对象的MSP。由于异常对象和分布内对象的MSP不够可区分，应用迭代边界抑制和扩张平滑可能不会提高性能。0此外，迭代边界抑制和扩张平滑需要对值进行缩放，因为它对值进行了某些计算。在使用最大逻辑时

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

简单有效的标准化最大对数方法用于识别城市场景中的意外道路障碍物

道路障碍物识别

计算样本的欧式距离时，cpm值用取对数的方法标准化，还是用z-score方法标准化？

基因表达PCA分析，对cpm值用z-score标准化还是取对数进行标准化？

特征缩放：对数据进行缩放，使得数据在同一量纲下，可以使用标准化、最大最小值归一化、对数变换等方法。 给出数据标准化的pytorch代码

用R语言编写代码，对于penguins数据集，对以bill_开头的列进行标准化和对数化

数据标准化方法有哪几种

除了最大最小值归一化和标准化，还有哪些常见的数据归一化方法？

js中的reduce方法在什么业务场景中会用到

CPM (counts per million) 标准化是指对cpm取对数吗？

中心化对数比变换是什么

环境因子标准化常用方法

matlab数组标准化

指数分布、正态分布、对数正态分布以及威布尔分布在可靠性寿命中的应用场景

对数似然函数 是什么

Java中对数组进行排序的方法

matlab中心化对数变换

保险中对数分析有啥有点

中心对数比变换和对数比变换的区别

对数变换matlab正态化

tpm标准化转log2

最新资源

特征缩放：对数据进行缩放，使得数据在同一量纲下，可以使用标准化、最大最小值归一化、对数变换等方法。给出数据标准化的pytorch代码

对数似然函数是什么