自动驾驶中一致的图像异常检测方法

155 浏览量更新于2023-10-15 收藏 16.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Tom´aˇs Voj´ıˇr and Jiˇr´ı MatasCzech Technical University in Prague, FEETechnick´a 2, Prague, Czech Republic{vojirtom,matas}@fel.cvut.cz54910一致的图像异常检测作为不可预测的补丁0摘要0我们提出了一种针对自动驾驶的新颖异常检测方法。该方法的设计称为DaCUP（一致的不可预测补丁的异常检测），它基于异常对象的两个一般属性：（i）不属于可以建模的类；（ii）在外观上与图像中的非异常对象不相似。为此，我们在自动编码器类似的架构中引入了一种新颖的嵌入瓶颈，使其能够对多样化、多模态的已知类外观（例如道路）进行建模。其次，我们引入了新颖的图像条件距离特征，以便能够通过最近邻方式实时进行已知类别识别，极大地增强了区分真正和假阳性的能力。最后，我们利用一个修复模块来模拟检测到的异常的独特性，并通过过滤与其邻域相似、因此可重构的区域显著减少了假阳性。我们证明了基于区域与邻域区域相似性的过滤，例如使用修复模块，是通用的，并且可以与其他减少假阳性的方法一起使用。该方法在几个公开可用的道路异常检测数据集和一个用于避障的海上基准测试中进行了评估。该方法在两个任务中都以相同的超参数实现了最先进的性能，而无需特定于领域的设计。01. 引言0异常检测问题有时也被称为离群值、分布外或罕见事件检测，可以直观地理解为识别与统计模型或一般数据分布偏离的数据子集的任务，这些数据以一种新颖、迄今为止未见过的、因此难以预测的方式偏离。异常检测是一个不明确的问题；没有普遍接受的定义，大多数方法都是应用驱动的。例如，在工业物体检查[2]中，异常被定义为局部的0在工业物体检查中，异常可能指的是物体的物理缺陷或变形，在医学中，异常可能指的是脑组织的细微异常，在流数据分析中，异常是“....不符合流的过去行为模式的模式”[23]。在自动驾驶中，异常通常被定义为道路上的不属于“已知类别”的对象（例如汽车、行人等）。0在本文中，我们关注后者，即自动驾驶背景下的异常检测（但不限于此，在第4.3节中有所展示）。我们提出了一种基于异常对象的一般属性的新颖异常检测方法：（1）未知，不属于我们可以建模的类（即在训练期间可用的标记类）；（2）独特，与图像中的非异常对象不相似。第一个属性遵循异常的常见认知[36,7]，而第二个属性间接地强制执行异常对象分类的一致性（例如，道路上的岩石或车道标线要么全部是异常，要么全部是已知的，但不能同时存在）。0异常检测的标准方法[26, 40, 30, 29,16]依赖于预训练的表示，通常专注于对非异常类进行建模，这些类的训练数据丰富。与现实世界中可能出现的所有新颖、迄今未见的、意外的对象相比，训练数据中多样化的异常对象很少。因此，训练数据通常通过从随机分布中合成异常来增强，例如[8]使用来自COCO[28]数据集的异常数据，[40]使用同一图像的随机裁剪，[29]使用训练数据集中非道路类别的对象集合。这些预训练模型受限于仅使用来自随机分布的合成异常的训练数据，并且缺乏建模异常独特性和分类一致性的机制，这在假阳性方面阻碍了它们的性能（如表3中实验结果所示）。甚至可以说，训练异常的概念是自相矛盾的，因为一旦在训练中观察到某种新颖性，它就可以被建模并不再是异常。54920我们提出了一种新方法，称为DaCUP，它解决了上述定义的两个方面，即该方法被训练为在显式嵌入空间中建模非异常类（道路），并使用合成异常[40]的增强训练数据以及促进分类一致性和建模异常的独特性的机制。为此，提出了一种基于输入图像的距离相似性和修复特征的新方法。本文的三个主要贡献，一个与鲁棒建模已知类别（例如道路类）的模型架构设计相关，另外两个解决异常独特性和分类一致性的问题，分别是：0•DaCUP方法，通过显式学习特征嵌入空间，对道路表面的多模态外观进行建模。多模态感知的嵌入空间允许使用多个不同的数据集进行训练（展示了结合Cityscapes[11]和BDD100k[46]的结果），以学习多样的道路表面外观（即已知类别），然后利用这些外观将异常与道路分离开来。0•一种新颖的基于图像条件的类别距离得分。距离得分是在所有图像块的嵌入和当前图像中已知类别（例如道路）的平均嵌入块之间计算的。该得分作为附加特征，增加了识别从未见过的表面上的异常和减少误报检测的能力（在表2中的结果上进行了演示）。0•利用中间特征的修复机制，减少异常误报，实现了“异常不能从其邻域中预测”的原则。该算法适用于任何产生逐像素异常得分的方法。我们展示了该方法对几种基线方法的性能改进（见表3）。02. 相关工作0本节讨论了与自动驾驶应用中的异常检测相关的相关工作。最先进的方法可以广泛分为两个主要趋势：（i）将异常检测作为语义分割网络中的外部数据识别[26, 8, 16,24]，（ii）检测重新合成图像与输入图像之间的差异[30,44, 34,13]。解决识别外部数据问题的方法通常从具有温度校准[17]softmax输出的语义分割网络开始。Liang等人[26]的方法将温度校准[17]softmax与输入图像的对抗性扰动相结合。0输入图像的处理对于内部数据的影响比外部数据更强烈，因此分离效果更明显，并且应用简单的阈值策略来对外部数据进行分类。类似地，Lee等人[24]对输入图像添加噪声扰动，并定义了基于马氏距离的得分，通过将像素特征（来自不同的网络层）与从训练数据估计的最接近类别的类条件高斯分布进行比较，识别出外部数据的像素。Chan等人[8]不考虑对抗性输入扰动，而是将外部样本视为从COCO[28]图像中随机提取的对象，并提出最大化外部数据像素的softmax熵，从而在类别softmax概率上产生均匀分布。通过对归一化的softmax熵进行阈值处理来对外部数据像素进行分类。Grcic等人[16]的方法使用混合内容图像训练语义分割网络。输入图像通过叠加归一化流采样的合成负例示例来创建外部数据像素。然后，网络被训练为在内部数据像素上具有低分类误差，并在外部数据像素上产生均匀预测。在推理过程中，通过计算温度校准的softmax和与均匀分布的JS散度来识别外部数据像素。0最近有多种方法[30, 44, 34, 13]利用生成网络[10, 41,31]的成功来从语义分割标签中合成图像。Lis等人的方法[30]首先使用生成方法[41]从输入图像的估计语义分割中重新合成图像。然后训练一个差异网络来识别合成图像和输入图像以及语义分割的VGG[38]特征之间的视觉和语义差异。类似地，Xia等人[44]从估计的语义分割中合成图像，然后训练类似孪生网络的架构来检测合成图像和输入图像之间的差异。Ohgushi等人[34]将从合成图像和输入图像提取的VGG特征计算的感知差异[21,15]与语义分割softmax后验熵相结合，产生最终的异常分数图。Di Biase等人[13]有效地结合了之前的方法[30,34]，首先根据估计的语义分割合成图像，然后使用VGG特征进行感知差异。中间结果（即输入和合成图像、语义分割、感知差异和softmax熵）被融合在一起，并通过解码器传递，估计最终的逐像素异常分数。0Creusot等人提出的一种方法[12]是通过对高速公路图像块进行自动编码受限玻尔兹曼机[39]的训练，学习低维表示。54930与合成图像（或其图像块）不同，Vojir等人[40]采用整体方法，使用类似自动编码器的网络来学习以区分方式重构道路像素的RGB值，而不是重构小的图像块。输入图像与重构图像之间的误差通过结构相似性度量[42]计算。重构误差与语义分割logits合并，产生最终的逐像素异常分数。这些自动编码器方法的主要缺点是瓶颈的简单性，无法有效利用训练数据来捕捉道路外观。这在训练过程中最为突出，因为道路外观是多模态的（例如沥青、碎石或鹅卵石道路）。本文提出的方法也利用了自动编码器架构，但我们通过提出的新颖显式嵌入瓶颈来解决这个缺陷，并在实验部分证明了其效率。与从语义分割标签中显式合成图像或学习道路外观的紧凑表示以进行图像重构不同，Lis等人[29]提出的方法使用语义分割来估计道路区域，并使用通用修复算法[47]以滑动窗口的方式修复图像。然后训练一个利用VGG特征的差异网络来比较输入图像和修复后的图像，并检测异常区域。相比之下，我们提议在后期阶段在目标区域使用修复，并将其与“固定”的相似度度量配对，以识别相对于输入图像的差异。与训练的差异网络相比，使用固定的相似度度量限制了训练数据的影响和偏差，训练数据依赖于可能或可能不适用于真实世界图像的合成异常。03. 方法0本节描述了所提出方法的四个主要组成部分：基线部分[40]、嵌入瓶颈、基于距离的评分特征和修复模块。整体结构如图1所示。从基线中，我们采用了生成-判别重建模块的思想，结合固定的语义分割网络。重建0该模块可以通过仅使用道路注释数据和简单的合成异常增强来高效训练，它在各种数据集上表现出色。此外，使用固定的语义分割网络可以轻松集成到实际系统中，该系统在生产中利用某种形式的语义分割而无需重新训练语义分割，这可能会降低其性能。然而，我们发现了这种方法的一个主要缺点-使用小的瓶颈来捕捉道路外观无法有效利用训练数据。这在训练过程中最为突出，因为道路外观是多模态的（例如沥青、碎石或鹅卵石道路），这阻止了在更大、更多样化的数据集上进行训练。除其他因素外，我们通过提出的显式嵌入瓶颈来解决这个缺陷。所提出的网络架构如图1所示，包括一个固定的语义分割网络（我们采用了DeepLabV3[9]），嵌入瓶颈，重建模块（采用自[40]），嵌入评分特征估计块，修复和耦合模块。重建模块以语义分割骨干的特征f ∈RC,Hf,Wf作为输入，并经过训练，以从嵌入瓶颈（第3.1节）中重建可驾驶表面的原始像素值，同时在其他地方引入大的重建误差。有关重建模块的详细说明，请参阅[40]。耦合模块将语义分割的逻辑l ∈ RK,H,W，图像重建误差rerr ∈RH,W，嵌入评分特征fds和fdr进行融合。0（第3.2节）和修复误差Lvgg（第3.3节）生成每个像素的异常得分图smap ∈RH,W。本节的其余部分详细描述了所提出的模块。第3.1节介绍了处理道路表面多模态外观的设计。嵌入空间使得能够使用新颖的输入图像条件的嵌入评分特征（第3.2节），允许实时识别“错误分类”的道路区域并缓解先前未见过的道路外观问题。最后，在第3.3节中引入了一种新的修复技术，解决了一致分类异常的问题。03.1. 嵌入瓶颈0为了解决在瓶颈中学习多模态道路外观的数据利用问题，我们提出了注入一个小型嵌入网络，它接收骨干特征并将其转换为嵌入向量。对于每个空间位置fx,y ∈RC，计算嵌入向量ex,y ∈RD。为此，采用了一个空洞空间金字塔池化（ASPP）[9]来提取位置（x，y）的上下文特征。ASPP块被修改为输出使用不同的扩张率提取的特征的串联。Image Embeddings Input Image Conv_1x1 Convolutional Block Atrous Spatial Pyramid Pooling (ASPP) Multi-Layer Perceptron (MLP) Upscaling by factor of 2 Upscaling to size SSIM Structural Similarity Index Measure Tensors dimensions Mean Road EmbeddingSSIM VGG-16 Inpainting Net Image Embeddings Semantic Segmentation Input Image 54940MLP0ASPP0ASPP0嵌入瓶颈0基于距离的特征0修复模块0耦合模块0重建模块（JSR-Net）0语义分割网络（DeepLabV3）0图1.方法概述及其六个主要模块。输入图像经过具有固定权重的语义分割网络[9]进行处理。中间图像表示f经过嵌入瓶颈处理，并用于与重建模块[40]的跳跃连接。重建图像与输入图像进行SSIM比较，产生重建误差rerr。重建误差在修复模块中用于获取修复掩码（通过阈值化）和修复图像和输入图像的VGG特征进行比较，以获得感知损失图Lvgg。此外，重建误差和语义分割在基于距离的特征块中被利用，以提取道路区域掩码Mdr和Mds。这些掩码使得能够计算平均道路嵌入和基于距离的评分特征fdr和fds。上述中间结果在耦合模块中进行连接，得到最终的异常得分图smap。0注意，基线[40]使用DeepLabv3[8]架构进行分割网络，使用ResNet-101[19]骨干网络提取特征，提取特征时在最后下采样之前，即在1/16的输入图像尺度而不是1/32。ASPP块后面跟着三个带ReLU激活函数的全连接层，以获得最终的D维嵌入 ex,y。除了瓶颈的修改之外，主要的区别是对嵌入设置了显式损失。使用最大间隔三元组损失[37]来强制锚样本（ea）和负样本（e n -其他）之间的间距m，同时最小化到正样本（e p -道路）样本的距离，如下所示：0L tri = 1|T |0( a,p,n ) ∈T max ( || e a − e p || − || e a − e n|| + m, 0)0+ λ d ( e n − e a e a || ∙ ( e p − e a0|| e p − e a0(1) 其中 T 是三元组的集合，|T| 是其大小。最后一项（两个归一化向量的点积）是方向正则化[32]，其中 λd是加权因子。根据输入图像的大小，可能存在大量的三元组，例如如果使用了全挖掘策略[14]。因此，使用随机采样过程来随机选择有限数量的锚样本（可以根据可用的GPU内存进行调整，在我们的所有实验中，将其设置为1024）。为了选择正样本和负样本，需要将地面真值标签调整到特征 f的分辨率。不使用最近邻插值的简单调整大小，而是采用多数投票策略来解决多个标签相交的边缘情况。训练的三元组使用半硬负样本挖掘[37]策略选择负样本和易样本采样策略（ESP）[25]选择正样本。这两种采样策略和正则化[32]有助于训练的收敛，并且在ESP的情况下，防止类坍塌并允许表示道路类嵌入的多模态分布。0可能存在大量的三元组，例如如果使用了全挖掘策略[14]。因此，使用随机采样过程来随机选择有限数量的锚样本（可以根据可用的GPU内存进行调整，在我们的所有实验中，将其设置为1024）。为了选择正样本和负样本，需要将地面真值标签调整到特征 f的分辨率。不使用最近邻插值的简单调整大小，而是采用多数投票策略来解决多个标签相交的边缘情况。训练的三元组使用半硬负样本挖掘[37]策略选择负样本和易样本采样策略（ESP）[25]选择正样本。这两种采样策略和正则化[32]有助于训练的收敛，并且在ESP的情况下，防止类坍塌并允许表示道路类嵌入的多模态分布。03.2. 基于距离的评分特征0进一步利用嵌入瓶颈来提取在线外观距离类似的分数。这个额外的特征解决了由未知（即在训练过程中未见过）道路外观引起的增加的误报分类问题，通过利用结构化嵌入空间计算相对于观察图像的道路相似性得分。设计基于以下原理：i,jInput ImageJSR-NetODINImage Resynth.SynBoostEntropy Max.DaCUP� n�i=1Ubl�wiCiCi�c=1∥ϕ(i)(I) − ϕ(i)(¯I)∥1��,54950基于一个假设，即在嵌入空间中观察到的道路的平均表示（即使是从观察图像中噪声和不完整的所有正确道路嵌入的列表计算得到的）将与所有正确道路嵌入的距离较小，因此能够识别它们。为了利用这个假设，引入了一个新的特征通道f d ∈ R H f，W f。它是逐位置计算的，对于每个空间位置(y, x)，计算如下：0f d x,y = || ¯ e - e x,y||0¯ e = 1 �0( i,j ) s.t. M i,j =1 e i,j , (2)0其中 ¯ e 是根据掩码 M 中标记为 1的估计道路标签的嵌入计算得到的平均嵌入。在当前实现中，使用两个特征通道 - f ds 和 f dr，根据公式 2计算。用于计算特征的掩码是从 i) 语义分割 logits l中获取的，用于估计掩码 M ds 和 f ds，以及 ii)从阈值化的重建误差 r err 中获取的，用于估计掩码 M dr和 fdr。注意，可以引入其他掩码来源以增加对道路标签各自源的故障模式的鲁棒性。在消融研究（第4.1节）中评估了该特征的有效性。03.3. 修复模块0为了解决一致的异常分类问题，我们提出使用修复技术。这是基于以下观察结果：异常与图像中的任何内容都不相似（除了它们自身，例如路上的石头），因此修复不应该能够从其邻域中重新创建异常。在我们的情况下，修复模块有两个任务：（i）识别假阳性（一个显著的例子是车道标线，其中一部分被分类为异常，原因是阴影或其他外观退化）；（ii）细化异常分割边界。对于修复技术，采用了 DeepFillv2[47]方法。这种整体方法允许修复由自由形式掩膜（例如图像中的随机区域）定义的区域，非常适合我们的应用，其中修复掩膜来自通过可学习阈值对重构误差 r err进行阈值化并应用 7 × 7形态膨胀得到的中间结果。输入图像 I 与修复版本 ¯ I之间的误差度量是感知损失 [21, 15]，它计算从 VGG [38]网络在不同卷积层提取的特征之间的平均曼哈顿距离。我们故意使用固定的 VGG特征来计算感知损失，而不是例如训练特殊的差异网络 [30,29]，以限制过拟合的来源和对训练数据质量的依赖，因为0图2. 在 SMIYC基准测试中的定性结果。最佳观看效果为彩色和放大。DaCUP在各种表面上表现出色，能够避免由路面纹理引起的误报。主要的弱点是对于小型和远处的物体的性能。地面真实异常用红色标记，并带有绿色边框（左列）。所有数据集的定性结果包含在补充材料中。0训练数据中的异常是通过数据增强合成的，其质量和方差较低。修复感知差异图 L vgg 是通道均值距离与 sigmoid非线性函数 σ ( ∙ ) 的加权平均，以将误差归一化到 (0,1)范围内：0L vgg = σ0其中 C i 是第 i 层的通道数，函数 U bl ( ∙ )是双线性插值，用于将距离图调整为公共大小（即输入图像的大小）。在训练过程中，学习每个使用的卷积层的 VGG网络的权重 w vgg = ( w 0 , w 0 , . . . , w n )。0修复感知损失与耦合模块中的其他特征进行级联，即与语义分割网络的 logits l、重构模块的重构误差 r err以及两个基于距离的嵌入分数特征 f ds 和 f dr进行级联。与 [40]类似，耦合模块融合特征通道并产生最终的二进制分类结果：道路 vs. 异常。0我们观察到，对于耦合模块来说，将数据增强注入到修复掩膜中是有益的，这样耦合模块可以学习识别修复道路和其他类别的修复，这些修复可能不是异常，因为它并不总是导致低感知损失，而是取决于图像的上下文。因此，在训练过程中，我们将随机自由形式掩膜[47]添加到估计的修复掩膜中。+549603.4. 训练细节0训练从热身程序开始；在前五个时期中，只使用三元组损失L final = L tri (Eq. 1)。在第六到第十个时期，我们切换到 Lfinal = L tri + L R。辅助重构损失 L R 的计算方法如下：0LR = 102 | Mr |0x，y max ∙ 0，1 - SSIM ∙ ux，yˆI，vx，yI - ξ ∙ Mx，yr02 | Ma |0x，y max ∙ 0，SSIM ∙ ux，yˆI，vx，yI - ξ ∙ Mx，ya0其中M是道路和非道路（异常）像素的真实二进制掩码，|M|表示掩码的非零元素数量。松弛变量ξ设置为0.001，如[40]中所示。SSIM是结构相似性指数测量[43]。对于单通道图像的位置（x，y）处的像素，SSIM计算如下：0SSIM（ux，yˆI，vx，+ c2）0（µ2u + µ2v + c1）（σ2u + σ2v +c2）（3）0其中ux，yˆI，vx，yI是重建图像ˆI和输入图像I在（x，y）处的局部块。µ，σ是这些块中像素值的均值和方差。常数c1，c2用于将SSIM归一化到（0，1）范围，并设置为默认值0.012和0.032。对于每个图像通道（R，G，B），分别计算并平均得到最终重建误差rerr。十个时期后，使用最终损失Lfinal = λxentLxent + λtriLtri + λRLR。权重设置为λxent =0.6，λtri = 0.2，λR =0.2。Lxent是应用于耦合模块的二进制分类输出的负对数似然损失，如下所示：0Lxent = -10N0n = 1（1 - cn）log（1 - ˆcn） +cnlog（ˆcn）0其中N是像素数，cn和ˆcn分别是第n个像素的真实标签和估计标签。三元组损失正则化权重λd根据[32]的建议设置为0.2。初始学习率设置为0.001，并使用0.9的多项式学习率衰减。优化使用带有动量（0.9）和权重衰减（5e-4）的随机梯度下降。感知损失使用VGG网络的三个中间层（conv12，conv22和conv33）计算，初始权重wvgg均设置为0.33。04. 实验0本节介绍了两个主要实验：（i）消融研究和（ii）与最先进方法的比较。消融研究包括三个实验。0训练数据LaFRAROFS障碍物轨迹+0AP ↑ FPR 95 ↓ AP ↑ FPR 95 ↓0基准CityScapes 83.7 4.4 56.2 26.3 w/ emb. space CityScapes88.1（4.4）3.2（1.2）48.4（7.8）5.9（20.4）0基准 S（CityScapes，BDD100k）85.4 4.5 61.3 10.00w/ emb. space S（CityScapes，BDD100k）87.6（2.2）3.3（1.2）63.0（1.7）3.9（6.1）基准CityScapes，BDD100k83.5 4.8 52.2 22.9 w/ emb. space CityScapes，BDD100k 91.2（7.7）2.9（1.9）78.5（26.3）2.7（20.2）0表1.嵌入瓶颈（§3.1）-对训练数据的依赖性，数据的大小和道路外观多样性不同。S（∙）表示对数据集进行子采样，使其大小与CityScapes相同，并且每个数据集中的图像数量大致相等。提出的嵌入瓶颈在所有情况下都有所改进，对于需要建模多样化道路外观的复杂数据尤为有效；请注意假阳性的减少。0首先评估了显式嵌入空间的好处。第二个消融研究展示了各个提出的组件的贡献（请注意，并非所有组件都是正交的，可以独立使用，例如嵌入通道需要显式嵌入空间）。最后，评估了修复模块的好处。除非另有说明，否则所有版本的提出方法都是使用相同的参数和训练数据进行训练的。我们遵循标准评估协议，即评估仅限于道路区域，并采用了来自[36, 3,29]的两个标准性能指标。即真阳性率为95％时的假阳性率（FPR95）和平均精度（AP，即Precision-Recall曲线下的面积）。尽管在所有实验中固定了随机种子，但由于cudnn库的实现，训练过程是非确定性的。我们将模型训练了四次，没有使用修复模块，即baseline + emb.space +emb.channels，以提供关于性能波动和结果显著性的概念，以便比较不同版本的方法。选择不使用修复模块纯粹是出于实际考虑（在有限的资源下更快的训练）。我们报告DaCUP方法（不包括修复模块）的结果作为平均性能值和标准差，并假设其他方法版本的性能不确定性类似。数据集。评估是在所有常用的真实数据异常检测数据集上进行的。我们创建了两个元数据集，具体为：Lost-and-Found（LaF）[36]，Road Anomaly（RA）[30]，RoadObstacles（RO）[29]和Fishyscapes（FS）[3]，统称为LaFRAROFS。第二个元数据集包含来自基准[7]的数据，包括其验证数据以利用所有可用的图像，即RO加上新的（222）和验证（30）图像，如[7]中所述，我们将其称为ObstacleTrack+。我们对ObstacleTrack+数据集进行了注释，以便在消融研究中进行评估。表3和表4显示结果与官方结果相关。9595 ↓✓85.44.561.310.0✓✓87.63.363.03.9✓✓✓90.9±0.92.4±0.380.5±2.52.7±0.7✓✓✓✓91.22.486.11.5AP ↑FPR95 ↓AP ↑FPR95 ↓Component Analysis.For the component analysis, allmodels are trained using the S(CityScapes,BDD100k)dataset, mainly to speed up the training process with lim-ited available resources. The individual tested componentsare: (i) the baseline, which refers to [40], (ii) embeddingspace Section 3.1, (iii) embedding channels Section 3.2 and(iv) inpainting Section 3.3. Table 2 shows the results for thisexperiments and highlights the additive performance gainsof the individual contributions.Inpainting Module.This ablation experiment demon-strates the benefit of the inpainting module itself when usedas a post-processing step.Ideally, the inpainting modelwould be trained jointly with the respective methods, how-ever, due to limited resources we proposed this simplertechnique that regardless of the sub-optimal combinationyields significant performance improvements. The differ-ence between using the simpler post-processing version andjointly trained (as proposed in Section 3.3) is shown in thelast two rows of Table 3. The architecture of the simple ver-sion is the same as proposed, however, the trainable weightswere set manually to put progressively more weight to thehigher-level features (0.2, 0.3, 0.5 respectively) and the fi-nal anomaly score map in the inpainted regions is computedas an average between the perceptual loss and the originaloutput. The inpainting mask is obtained by thresholdingthe method’s output and the threshold was fine-tuned foreach method by grid search using values (0.1, 0.2, ..., 0.9).The results are shown in Table 3. The inpainting modulehelps in most cases, mainly in the reduction of the falsepositives. The effect is somewhat diminished for the bestperforming methods, however, even for the best performing(Maximized Entropy [8]) it helps to reduce the false posi-tives on Obstacle Track+by half with negligible impact on54970基线嵌入空间嵌入通道修复LaFRAROFS障碍物跟踪+0表2.方法构建块的割舍研究。第三行还显示了多次训练运行的性能标准差，以确定结果差异的显著性。0ones.我们故意没有使用[7]中的LostAndFoundNo-Known跟踪，因为它完全由LaFRAROFS中的数据组成。元数据集上的性能特征是在相应子数据集上平均的性能。这些平均指标（AP和FPR95）在[40]中使用，并且我们报告的结果与此先前工作一致且直接可比（在LaFRAROFS的情况下）。各个子数据集的结果可在补充材料中找到。为了与最先进的方法进行比较，我们使用了官方的SegmentMeIfYouCan基准（SMIYC）[7]。通过基准网站提交每个图像的估计异常分数来获得性能结果。LaFRAROFS的结果是通过评估SMIYC基准工具包中提供的基线方法获得的（具有可用的预训练模型）。选择的图像的定性结果显示在图2中。定性结果清楚地展示了所提出方法的主要优点和缺点，即在各种表面上表现出色，能够识别由道路表面纹理引起的误报，并且对于小距离物体的性能不理想。04.1.割舍研究0显式嵌入空间。在这个实验中，我们使用了三种类型的训练数据来展示第3.1节中提出的显式嵌入空间的有效性。前两个数据集测试了建模多模态道路外观的能力。为此，我们使用了CityScapes [11]和CityScapes与BDD100k[46]的组合数据集，该数据集被子采样（除非另有说明），以具有与仅CityScapes相同数量的训练示例和来自CityScapes和BDD100k的相似数量的图像。来自各自数据集的训练图像是随机选择的，并在所有实验中保持不变。子采样数据集表示为S（CityScapes，BDD100k）。最后，我们使用CityScapes和BDD100k数据集的完整组合来评估在不平衡场景中建模道路外观的能力（注意：BDD100k的数据点数量大约是CityScapes的四倍）。结果总结在表1中，显示了所提出的嵌入瓶颈的好处，特别是在数据利用效果和建模多样化道路外观（即低误报）能力方面。0LaFRAROFS障碍物跟踪+0最大化Softmax [20] 29.7 28.9 11.8 21.2 +修复 52.3（22.6）26.7（2.2）41.3（29.5）19.8（1.4）0+修复 55.2（10.5）17.0（15.6）45.8（14.2）9.2（8.7）JSRNet [40] 83.7 4.4 56.2 26.3 +修复87.1（2.4）2.9（1.5）65.7（9.5）22.0（4.3）0+修复 71.2（20.5）11.8（14.1）53.4（33.0）7.1（11.6）图像重合[30] 66.3 25.0 54.9 9.8 +修复66.6（0.3）25.0（0.0）57.9（3.0）9.8（0.0）0+修复 80.7（3.2）14.3（1.1）75.5（7.1）2.0（1.4）最大熵[8] 86.3 6.4 86.4 1.9 +修复85.4（0.9）6.2（0.2）86.3（0.1）1.0（0.9）0DaCUP (我们的) w/o 90.9 ± 0.9 2.4 ± 0.3 80.5 ± 2.5 2.7 ± 0.70+ 修复 90.7 ± 0.6 ( 0.2 ) 2.3 ± 0.3 ( 0.1 ) 80.9 ± 1.6 ( 0.4 ) 1.6 ± 0.1 ( 1.1 )0+ 修复训练 91.2 ( 0.3 ) 2.4 (0.0) 86.1 ( 5.6 ) 1.5 ( 1.2 )0表3.修复模块对最先进方法的影响。对于所有方法，它都显著减少了所有数据集上的误报（FPR 95）。除了最大熵[8]之外，性能基本不变，平均精度（AP）也得到了改善。最后三行展示了联合训练修复模块和主要方法的好处。有关详细讨论，请参见消融研究部分（4.1）。各个数据集的完整结果请参见补充材料。AUPR↑FPR95 ↓1951Maximum Softmax [20]15.716.619.715.96.330.133.214.262.210.30.47Mahalanobis [24]20.913.113.521.84.755.012.933.831.722.115.46ODIN [26]22.115.321.618.59.452.930.039.849.334.53.85JSRNet [40]28.128.918.624.511.074.26.634.345.936.00.09Image Resynthesis [30]37.74.716.620.58.457.18.827.230.719.20.65Road Inpainting [29]54.147.157.639.536.082.935.849.260.752.3—SynBoost [13]71.33.244.341.837.681.74.636.872.348.71.62Maximized Entropy [8]85.10.847.962.648.577.99.745.963.149.90.43NFlowJS [16]85.60.445.549.550.489.30.754.659.761.8—54980Obstacle Track LostAndFound NoKnown 处理速度[s]0DaCUP (我们的) 81 . 5 1 . 1 37 . 7 60 . 1 46 . 0 81 . 4 7 . 4 38 . 3 67 . 3 51 . 1 0.800表4. 在SegmentMeIfYouCan基准测试中与最先进方法的比较（在两个轨道上-Obstacle和LaFNoKnown）。DaCUP在所有标准中都位居前三。最后一列报告了每张图像的处理时间，平均值是在六十个1280×720图像上，使用NVIDIAGeForce RTX 2080 Ti计算的。0方法 µ A [px] / µ R Pr Re TPr FPr F10MaskRCNN [18] - / - 93.1（64.0）41.7（89.0）27.1（0.8）2.0（0.4）57.6（74.5）ENet [35] 78 / 85.959.8（17.2）96.3（96.0）62.6（3.8）42.0（18.6）73.8（29.1）DeepLabV3 [9] 21 / 97.080.0（43.5）92.7（95.8）60.2（3.8）15.1（5.0）85.9（59.9）BiSeNet [45] 17 / 97.690.6（74.8）89.9（94.8）58.4（3.8）6.1（1.3）90.3（83.7）RefineNet [27] 18 / 97.689.1（67.3）93.0（96.3）60.4（3.9）7.4（

下载后可阅读完整内容，剩余1页未读，立即下载