没有合适的资源?快使用搜索试试~ 我知道了~
15651基于局部图像重建与分割耦合的道路异常检测Tomas Vojir*†Tomas Sipka† Rahaf Aljundi‡ NikolayChumerin‡ Daniel Olmeda Reino‡ Jiri Matas†摘要我们提出了一种新的方法来检测未知物体的背景下,自动驾驶。这个问题被公式化为异常检测,因为我们假设未知的东西或对象的外观不能被学习。为此,我们提出了一个重建模块,可以与许多现有的语义分割网络,并训练识别和重建道路(可驾驶)表面从一个小的瓶颈。我们假设路面的重建不佳是由于训练分布之外的区域,这是异常的强道路结构相似性误差与语义分割相结合以结合来自已知类的信息并产生最终的每像素异常分数。在四个数据集上评估了所提出的JSR-Net,Lost-and-found,Road Anomaly,RoadObstacles和FishyScapes,在所有数据集上实现了最先进的性能,显着减少了误报,同时典型地在宽范围的操作点上具有最高的平均精度。1. 介绍自动驾驶汽车已迅速成为计算机视觉方法的主要应用领域之一。受这种快速发展影响和刺激的研究主题范围很广:物体检测[33]、跟踪[31,52]、光流估计[51]、立体[49]、单目深度[9]估计、语义分割[53]、激光雷达-相机融合、3D映射和自定位[50,23],仅举几例。对于许多问题,表现最好的方法是或包括深度神经网络,它对训练数据有着贪婪的胃口;目前主要是标记数据。因此,大量的数据采集和标记工作已经进行,同时研究了合成的*通讯作者,vojirtom@fel.cvut.cz†捷克布拉格技术大学电气工程学院,捷克共和国‡Toyota Motor Europe,布鲁塞尔,比利时数据[36,18],虚拟环境和模拟器[16],以及无监督学习[2]。在这项工作中,我们提出了一种方法来检测道路异常的语义分割设置,在现场的任意“东西”或对象的情况下,在路面上道路上的“东西”的检测虽然语义分割解释了如在图像中所看到的场景,但是将其分解成一组已知类别、对已知类别之外或不在分布中的外观进行建模需要额外的考虑。在所提出的方法中,我们紧密结合信息的已知类,“道路”在我们的应用程序中,与估计以前看不见的已知类别信息由标准分段深度神经网络捕获在接近训练分布的数据上的性能是优异的,但其在看不见的数据上的行为是可变的,如实验所示。因此,我们添加了一个重建网络模块,争论,并通过实验验证,重建可靠和可预测的失败是一个异常的指标。本文的主要贡献如下:(i) 一种图像重建的新颖用途,通过明确要求已知类别之外的不良重建,将一个已知语义类别与源自未知外观分布的异常和离群值(ii) 来自重构和语义分割的信息的可训练耦合,其能够有效地利用两个信息源,(iii)即插即用模块,其可以与许多分割网络一起使用而不需要重新训练分割部分,即,增加了新的功能,而没有任何语义分段性能损失,并且具有最小的计算和存储器开销。(iv)实现最先进的结果,并且比计算方法更好地推广到分布外数据。我们展示了三个定量结果 标准 一个衍生数据集-15652RoadAnomaly[28] 、 RoadObstacles[27] 和FishyScapes:LaF [4] -本文的其余部分结构如下:第2节讨论了相关的工作,第3节描述了建议的JSR-Net方法及其组件,第4节提供了技术细节的可重复性的目的,第5节讨论了实验结果,最后第6节总结了论文的结论。2. 相关工作异常检测,分布外detec,detecOOD或新颖性检测[6,39,21,26,22,5,38,12,28,47,46,25]描述了尝试检测给定模型任务或“知识”范围之外的输入数据的方法非分销(OOD)。最近,OOD检测引起了越来越多的关注,因为它可以为深度神经网络提供拒绝与给定模型训练的“任务”不对应的输入的能力,从而避免误导性的预测及其后果。然而,大多数方法都集中在图像分类问题上。虽然[21]使用softmax层后的预测类概率作为分布内样本的得分,[26]增加了这种方法的鲁棒性通过预先向输入添加小的扰动。 Le等人[25]提出了一种基于输入样本特征(来自神经网络的不同层)到训练数据特征的马氏距离的这些方法假设每个图像一个类,这限制了它们对图像分类场景的适用性。最接近我们的方法是[1,3]。Cho [1]采用在原始分布数据上训练的变分自动编码器,并使用自动编码器的重建概率作为Bevandic等[3]使用两个头部,一个用于语义分割,另一个用于检测分割头部的离群值。在这项工作中,我们部署了一个自动编码器样的方法,通过专门建模的道路外观和耦合模块来训练语义分割输出和道路重建误差之间的相互作用,以本地化的新区域或异常区域。道路异常检测。如果考虑输入数据的类型,则有几组道路异常检测的方法。诸如[34,35]的方法依赖于立体相机并使用Stixel表示来检测异常。其他方法[24,40,45,14]通过分析UV视差图来检测来自立体输入的异常。最近,已经提出了需要RGB-D数据来定位异常的方法[19,41]。在这项工作中,我们关注的是方法仅仅依靠单目摄像机的图像。最相关的方法[12,28,47,46,27]在后续中详细描述RBM [12]方法在提取的高速公路斑块上训练小型受限玻尔兹曼机,以通过低维空间学习道路斑块的自动编码。在评估期间,输入图像被分割成小块,并且每个块通过训练的网络自动编码。原始图像块与编码-解码图像块之间的绝对差被用作异常存在的指示符Xue等人的方法。[47]通过对从边缘图建立的边界框建议进行分类来检测道路上的未知物体。 在第一步骤中,IM-提取并合并多个尺度上的年龄边缘以形成超像素[15]。通过检测遮挡边缘[30]进一步减少超像素表示,这包括链接均匀区域中的超像素并在具有估计的深度不连续性的位置处添加边缘。从这些超像素中,边界框提案被采样[29]并通过随机森林[13]使用20个ad-hoc特征(例如,颜色、物体或伪距离)到三个类别-道路最近,两项研究[28,32]提出了一种神经网络方法,该方法对RGB图像及其语义分割进行操作。训练神经网络以检测输入图像和由pix2pixHD [43](或[8])从语义分割生成的图像的差异。语义分段中错误标记的像素(例如,道路部分上的“随机”标签)导致生成器创建具有大的视觉离散度的图像,这可以被识别为“异常”。类似地,Xiaet al.[46]提出了一种在语义分割中检测异常的方法使用图像合成模块,在给定预测分割图的情况下合成输入图像。然后将合成图像与输入图像进行比较。具有较大差异的区域被视为异常。除非异常,否则假设合成的对象与图像中呈现的对象相似。在该方法中生成的对象的真实性取决于GAN模块的质量。在[27]中提出了一种用于检测道路异常的基于修复的方法。选定的补丁被修补与道路一样的结构和差异网络被用来检测道路上可能的异常相比之下,我们的方法依赖于预先训练的分割模型,并且可以插入,而不需要训练完整的模型。此外,我们不依赖于生成模型(如GANs)来生成完整的图像,而是专注于学习道路的更受约束的外观。这样,我们避免了模式崩溃和优化稳定性问题。由于道路的外观是以完全卷积的方式建模的,因此我们避免了诸如错过大对象之类的陷阱15653LR|||MR|I我RˆI由于次优的inpaint窗口大小,如[27]。与所列出的最先进的方法相比,我们的方法是轻量级的,易于训练3. 方法所提出的方法背后的主要思想是学习具有相对低的外观变化(与异常对象相反)的道路表面的低维但鲁棒的潜在表示,并且存在大量具有可用于此目的的标记道路的数据集[11,17,48]潜在道路表示用于执行道路重构,当与例如在自动驾驶车辆使得能够鲁棒地检测任意道路异常。 同样的原理可以用来在不同的情况下,在海军无人机上检测异常-从较大的感受野形成,并允许底颈捕获不同尺度的外观,这与例如,[27]其中固定尺寸的内绘窗口限制可检测的异常对象的最大区域。(ii)解码器用于渐进地上采样特征通道并学习如何从瓶颈重构道路。它由四个卷积块组成。每个区块链两次以下操作:双线性上采样、2D卷积、batchnorm和ReLU非线性。 特征通道的数量逐渐减少到最后一个卷积层中的最后三个通道(RBG)。(iii)使用结构相似性指数度量[44](表示为SSIM)将重建的RGB图像I与输入图像I进行一曰:就在水面上为此,一个深度神经网络-SSIM(ux,y,vx,y)=(2µu µv+c1)(2σuv+c2)(一)工作模型提出了共同学习道路像素级I(µ2+µ2+c1)(σ2+σ2+c2)重建和融合与语义分割。在Cityscapes [11]数据集上训练的道路重建与语义分割相结合,在多个异常检测数据集上显示出良好的一般化(参见第5节中的结果),这对于缺乏全面训练数据集的异常检测任务尤其重要。整体网络架构如图所示。1.两个主要模块-3.1. 重建模块重建模块的目标是以区别的方式学习道路(可驾驶表面)的外观,这意味着道路将以最小误差重建为此,我们提出了一种解码器形式的深度神经网络,该解码器连接到预先独立训练的固定分割网络的主干。这种区分性重建损失的公式与小瓶颈一起允许我们将异常检测为重建误差模拟中的重建差区域年龄 通过使用固定的主干(编码器),它允许我们u v u v其中ux,y,vx,y是I,I的两个局部窗口,中心位于我location(x,y)和μ,σ是局部窗口像素值的平均值和方差该措施增加了常数c1,c2的数值稳定性和设置的SSIM输出的范围。 Eq。1为单通道输入图像,而在评估期间,RGB图像的每个通道被独立地处理,并且输出是在通道维度上平均的每通道SSIM测量。SSIM不仅结合了照明和对比度部分,而且还对空间上接近的像素的结构依赖性进行建模,这与例如MSE,因此对重建照明中的不精确性更鲁棒。存在一个有效的实现1,使用卷积运算,这是修改和使用在这项工作。注意,由于SSIM是在小邻域上平均的复合测量,因此当在反向传播中使用时,它不一定产生如人类所感知的准确的每像素图像重建第5节的消融研究中提供了与广泛使用的标准L2常模的实验比较用于训练重建模块的最终辅助重建损失R被定义为:L=1ΣmaxΣ0,SSIM。ux,y,vx,yΣ−ξΣMx,yx为oh将重建模块插入到任何+1 ΣmaxΣ0,1 − SSIM。ux,y,vx,yΣ−ξΣMx,y在一个实施例中,所述方法可以包括使用语义分割网络并且仅训练重构模块和分割耦合(在以下部分中描述)。|Ma|x为ohI一(二)重建模块由三个关键部分组成:(i)主干线特征为解码器瓶颈的降维。 这是通过处理其中M是道路(r)和异常(a)(不是道路)的二进制掩码,M是非零元素的数量,并且ξ是用于改善收敛的松弛变量。的通过空间金字塔池化的(ASPP)[7]块。ASPP块用于利用-1https://github.com/Po-Hsun-Su/pytorch-ssim15654LΣ联系我们输入图像3×高×宽输出LogitsC×H ×WArgmax输出分割高×宽M语义分割(固定)|−Aconv瓶颈解码器重建RGB 3×H×WSSIMXConcatenateAux. 损失LR异常与道路等级2×H×W交叉熵损失Lxent重建模块图1. JSR-Net架构。输入图像由固定的语义分割网络(用灰色描绘)处理。特征(来自语义分割网络主干的最后一层)被馈送到重建网络中,重建网络的输出是相同分辨率的输入图像的重建版本。然后使用SSIM测量将重建图像与输入图像进行比较。每像素的误差与语义分割网络的输出对数连接,并由两个卷积块融合。最终输出是“道路”和“异常”类的两个地图损耗 R按2的因子按比例缩小到标准化的范围(0,1)。直观地,辅助重建损失使道路像素上的重建误差最小化,同时双通道输出。N最大化别处的重构误差。1Lxent=−N(1−cn)log(1−cn)+cnlog(cn)(三)n=13.2. 分段耦合模块分割耦合模块被训练为将在固定分割网络的输出逻辑中编码的“已知类”的信息这两个信息源的可训练耦合是必要的,因为分割网络在类似然性的估计中通常过于自信,因此道路上的小异常对象通常被错误分类(参见在实验第5节中仅使用基线分割网络进行异常检测的结果为了学习如何结合语义分割和重建信息,我们建议使用一个标准的卷积块,这是简单的,但有效的这项任务。首先,分段对数与SSIM重构误差逐通道连接以形成到两个卷积块的输入。每个块由2D卷积层组成,随后是批归一化和ReLU非线性。输出具有对应于异常和道路类别的两个通道,并由softmax层进行为了训练分段耦合,使用标准二进制交叉熵损失(Eq.3)施加到其中N是示例的数量(在我们的情况下是像素的数量),cn,cn0、1分别是第n个训练示例的真实和估计类标签。最终损失作为Lxent的总和获得(等式10)。(3)和缩放辅助重建损失LR(等式10)2):L=Lxent+0。5LR(4)请注意,我们没有使用两个损失的显式加权(仅对辅助损失进行归一化),因为两个损失在正常条件下具有相似的规模。3.3. 合成异常数据增强为了进一步增加鲁棒性并减轻网络空间偏差(即,学习到道路标记更可能在图像的下部),提出了一种新颖的简单增强方案。扩增生成随机数量的多边形(在我们的情况下最多10个)更广泛的可能异常形状。这些多边形接着用于裁剪属于“异常”标签或填充有随机颜色且随机放置在道路区域内的图像部分。多边形被创建为随机大小(在我们的例子中为宽度)的边界框语义耦合模块15655××××LH侦察侦察 呃赛格姆。异常分数从128个信道开始减少两倍(即,128、64、32、16)。重建图像由最终的11个卷积层产生,该卷积层将16个通道减少到3个。• 分段耦合-使用Conv + Batch归一化+ ReLU的两个块。第一个块将语义分割日志(Cityscapes类的19个通道)和SSIM重建误差图像(1个通道)的级联作为输入,并将通道的数量减少到8个,内核大小设置为3并且步幅设置为1。第二个块使用1×1con-图2.增强过程的可视化。首先,在随机大小的边界框内随机采样N个点。这些点的凸包被用作(i)用于将具有异常标签的输入图像的随机部分复制到随机道路位置的裁剪掩模,或者(ii)其被填充有具有噪声的随机颜色。使用具有适当修改的地面实况的增强图像来训练所提出的方法,如最后一行中的中间结果所示。和高度在32到256个像素的范围内。这种增强有很大帮助,因为它可以防止网络过度拟合道路区域,从而提高异常检测性能,如消融研究(第5节)所示。增强过程如图2所示。4. 实现细节本节描述了拟定方法的技术细节,以及与方法实施的重现性和清晰度相关的参数设置。以下部分详细描述了(i)具有各个层的参数的网络架构,以及(ii)所提出的方法的训练过程。4.1. 网络架构我们的方法基于DeepLabV3 [7]网络架构,并使用我们为我们的目的修改的公开可用代码2所提出的方法的各个部分由这些块组成:• ASPP块[1,6,12,18])。输出通道的数量被设置为4(即,重构模块中瓶颈的大小)。• 解码器+ 批 量 归 一 化 + ReLU + Conv + 批 量 归 一 化 +ReLU,内核大小设置为3,步幅设置为1。功能频道的数量逐渐增加2https://github.com/jfzhang95/pytorch-deeplab-xception卷积并输出两个通道,即,“road” and “anomalies”对于SSIM测量,使用默认值局部窗口大小被设置为11,这意味着围绕每个像素位置的11个局部窗口被用于计算平均值和方差值。 常数c1,c2设置为0。012和0。032,即,时的默认值比较像素值归一化为(0,1)的图像。4.2. 培训用于训练语义分割网络的学习率被设置为0。01(原始代码库的默认值)。对于所提出的方法的所有训练,我们将学习率设置为0。001。 由于提出的模型小得多,它以较小的学习率获得了更好的性能和请注意,当涉及所提出的方法时,具有不同主干变化的语义分割网络被单独训练并固定用于所有实验。将R损失的松弛变量R设置为0。001。对于训练,输入图像大小被设置为896 896,如果可能的话(受GPU内存限制),否则使用513 513(原始代码的默认值)。在评估期间使用全分辨率的输入图像。训练在单个NVIDIARTX 2080 TiGPU上完成。此外,我们固定了PyTorch和NumPy库的随机种子(设置为42),以限制随机性对消融研究的影响,即,数据增强、混洗以及网络权重初始化是相同的。注意,即使网络权重初始化从相同的随机种子开始,如果网络架构改变,则初始化权重的一些部分也改变,因为对随机数生成器的调用的数量不同。5. 实验有两个主要的实验-消融研究和比较国家的最先进的方法。所提出的方法(或其组件)使用相同的参数进行训练,除了个别组件W增强输入图像增强地面实况火车15656±±表1. 消融研究:件. 性能指标在所有数据集上平均。括号内的数字表示相对于相对于时间的百分比改进。前一行。Segm仅对分割网络进行注释(使用道路/人行道与道路/人行道的合并类的归一化输出logits)。其余部分作为输出),Recon仅使用重建模块(SSIM重建误差是输出),Trained表示使用训练的分段耦合和Aux。L增加了SSIM重建的损失。注意,简单组合Segm+Recon(softmax分割合并类和重建误差的乘积)显式地训练辅助重建损失,因此训练Aux。L检查。在该实验中使用Resnet-101checkp 1被打开或关闭。除非另有说明,否则在所有实验中均使用带有Resnet-101 [20]主干的分割模型,使用checkp1变异所使用的数据集、性能测量和详细实验以及结果讨论在下文中描述。5.1. 数据集三个标准数据集用于评估-失物招领(LaF)[34],道路异常(RA)[28]和道路障碍(RO)[27]。数据集包含1203,60和105个测试图像。LaF和R0数据集取自安装在汽车中的相机,而RA组合了汽车安装的相机 图 像 和 类 似 道 路 场 景 的 艺 术 图 片 。 此 外 ,Fishyscapes [4]数据集是失物招领数据集的子集,用于与[27]的结果兼容我们扩展的道路异常数据集的注释与粗糙的道路segmenta-灰,使可用于相同的地面实况层,这是为其他数据集提供。从[34,4,27]中采用了两组性能度量,即,真阳性率(TPR)和假阳性率(FPR)以及精确度和召回率。这些措施由FPR总结为95%TPR(FPR95)和平均精密度(AP)。所有类似地,仅使用道路区域来计算评估以前的工作[28,27,34]。5.2. 消融研究我们展示了两个实验调查不同方面的建议的方法表2.消融研究:主干结构-ResNet主干的结果包括两个检查点。在所有数据集上对度量进行平均。性能的差异大多是微不足道的(平均值)。AP81 3,平均值FPR955. 5. 1. 3),支持-ing主张,建议的方法有助于显着考虑-更少的骨干架构和。此外,示出了分割耦合有效地利用给定分割模型的能力,而不管其强度如何,其表示为Cityscape验证集(Val.mIoU柱)。(not训练的),并且因此不同的主干不能捕获用于重建模块的必要特征或上下文。具有不同主干的分割网络(DeepLab V3 [7])的所有变体都在Cityscapes [11]数据集上进行了训练(在不同数据集上训练的分割网络的评估留给未来的工作)。单个组件。表1中的结果显示了该方法受试组件为:(i)仅使用针对道路/人行道的合并类的归一化输出对数的Segm分段网络与针对道路/人行道的合并类的归一化输出对数的Segm分段网络。休息作为输出。 类合并在合并类的通道上使用最大运算符。(ii)Recon使用仅具有SSIM重建误差作为其输出的重建模块。(iii)Trained表示使用训练的分割耦合,即,重建误差和语义分割逻辑的融合如第3节中所述被训练,以及(iv)辅助。L是元标签,其用信号通知存在直接应用于重构模块的输出上的训练损失的某个部分的事实( 例 如 , SSIM ) 。 例 如 , 用 于 训 练Segm+Recon+Trained(表1中的行4)的损失是交叉熵(等式1)。3)应用于分割耦合层的二进制分类输出--“全部检查”使用Eq. 4,其中重建损失(Eq. 2)被添加到交叉熵,因此,Aux。L字段已选中。注意,简单组合Segm+Recon使用合并的语义分割逻辑的softmax与异常类别的重建误差的乘积,这明确地训练辅助重建损失,并因此训练Aux。对于该组合,也检查L。结果表明,该方法的重要性评估主干架构的影响和语义分割网络的整体性能是很重要的,因为这些组件是固定的结构模块,其单独具有可与例如,再合成[28]方法。通过将可训练耦合添加到语义分割,我们SegmRecon训练Aux. LAvg. AP↑Avg. FPR95↓✓31.971.5✓62.2(30.3)19.4 (52.1)✓✓✓78.9(16.7)5.9 (13.5)✓✓✓79.1(0.2)4.9 (1.0)骨干Val. MiouAvg. AP↑Avg. FPR95↓Mobilenet v261.278.76.8Xception50.382.15.8Resnet-101checkp151.682.95.1Resnet-101检查p266.183.74.415657L±±表3.在三个标准数据集和Fishyscapes上对所提出的方法和最先进的方法进行了性能比较:LaF,Lost and Found的子集最后一列块显示所有数据集的平均结果最好和第二好的结果由相应的徽章标记我们的方法(使用Resnet-101checkp 2)在除一个数据集外的所有数据集上都取得了最佳结果,平均精度(AP)和在95%真阳性率(FPR95)的操作点的假阳性率。 在平均性能上,它明显优于所有竞争对手。标有* 的方法的不完整结果取自[27],详见正文。可以通过结合关于已知类别的知识来减少误报。检测率可以进一步提高3。8%,通过将辅助损失R添加到重建模块,假阳性的增加可忽略不计。不同的主干架构。表2中的结果显示了不同分段网络骨干架构的异常检测性能。在DeepLab-v3 [7]分段网络中使用了三种不同类型的主干,即Mobilnet-v2 [37],Xception [10]和Resnet-101 [20]。表2中的结果证明了我们的方法的有效性,而不管骨干架构如何。此外,使用具有不同分割性能的两个检查点51,在Resnet-101架构上测试语义分割性能的效果。6对66岁。1mIoU。在Cityscapes [11]验 证 集上 测 量 语义 分 割 性 能。 训 练Resnet-101主干的设置被有意地改变以产生两个不同的权重集合,以表明所提出的方法适应于相同主干架构内的不同质量的分割和提取的特征。具体地,训练图像的大小和训练时期的数量被降低。所有测试的骨干架构,当与我们提出的方法配对时,实现了非常高的异常检测分数,在所有数据集的平均性能上优于所有竞争对手。所提出的JSR-Net w.r.t.不同的主链大多数是边缘的(在平均值范围内)。AP81 3和 Avg.FPR 955. 5. 1. 3),支持主张,提出的方法有助于显着,无论背面-骨结构此外,分割性能似乎不是一个至关重要的因素,而是容量 因为它是固定的,没有一起训练使 用 重 建 模 块 ( 参 见 Mobilenetvs. Resnet- 101 检 查p1)。相反,更好的语义分割性能仅通过小幅度(resnet-101checkp 1 vs. checkp2,其突出了分割耦合有效地利用给定分割模型的能力,而不管其强度如何,在我们的情况下表示为Cityscape验证集上的平均IoU。设计选择Avg. AP ↑Avg. FPR95↓提出82.95.1LR=L2无增强69.5(-13.4)60.9(-20.0)10.2(-5.1)11.5(-6.4)表4.消融研究:设计选择-测试两个主要设计选择:(i)重建误差测量(SSIM vs. L2距离测量),和(ii)提出的异常数据增强。w/o增强行是当排除“画”在道路上的随机异常的新颖增强策略(第3.3节)时的性能。性能是所有数据集的平均。大的性能增益支持SSIM的选择(超过L2度量)和增强策略的有效性设计选择。表4中的结果验证了两个重要的设计选择:(i)重建误差测量(SSIM vs.基线L2距离测量),以及(ii)在训练期间提出的简单异常数据增强。对于评估,除了一个指定的设计选择之外,所有内容都保持不变。使用更鲁棒的重构措施和异常数据增强策略显著地提高了异常检测性能,从而支持了我们选择的有效性。5.3. 最先进的比较该实验将所提出的JSR-Net与最近的道路异常检测方法[28,27,12]、分布外检测方法[3]进行了方法失物招领AP ↑FPR95↓道路异常AP ↑FPR95↓道路障碍AP ↑FPR95↓Fishyscapes:LaFAP ↑ FPR95↓平均AP ↑FPR95↓SDC-Net softmax14.058.854.676.83.899.32.692.718.881.9logits28.483.955.085.336.887.524.092.036.187.2成果管理13.185.347.791.317.787.211.485.422.587.3再合成[28] BayseSegNet61.946.670.665.839.316.763.831.758.940.2PSPNet62.943.176.448.159.25.566.72 3.166.324.9离群值检测[3]∗组合问题––––68.119.168.310.768.214.9随机大小补丁––––70.62 1.060.927.065.814.0固定面积补丁––––31.428.150.073.940.751.0美国[27]––––75.9 215.881.0 29.178.515.5JSR-Net(我们的)Resnet-101checkp179.4 11 3.692.7 22 12.673.91.785.5 11 2.782.9 22 5.1Resnet-101检查p278.0 22 4.194.4 119.284.0 11 0.478.34.083.7 11 4.4156581.0失物招领1.0道路异常1.0道路障碍物1.0鱼景0.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.20.00.0 0.2 0.4 0.6 0.81.0召回0.00.0 0.2 0.4 0.6 0.81.0召回0.00.0 0.2 0.4 0.6 0.81.0召回0.00.0 0.2 0.4 0.6 0.8 1.0召回1.01.01.01.00.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.20.00.00 0.02 0.04 0.06 0.080.10FPR0.00.00 0.02 0.04 0.06 0.080.10FPR0.00.00 0.02 0.04 0.06 0.080.10FPR0.00.00 0.02 0.04 0.06 0.08 0.10FPR图3.所有数据集的性能比较,以精确-召回(顶行)和ROC(底行)曲线的形式。在图例中,每个方法旁边的数字显示了精确度-召回率曲线的平均精确度(AP)和ROC曲线的FPR95。 对于ROC曲线,我们仅显示最相关的部分-高达10%FPR-因为具有更高FPR的方法在现实世界的应用中不可用。(for关于其变化的更多细节,读者参考[4])和基线最新分段方法[53]。作者的实现用于方法[28,53],并提供了预训练模型。[12]的实现和预训练模型在[28]的代码库中发布。[27,46,3]中的方法获得结果存在几个问题。[27]的代码在发布时尚未发布。方法SynthCP [46]仅在合成数据上进行训练,当在真实数据(Cityscapes,Lostand Found)上进行训练时,我们未能获得合理的结果(高于SDC-Net基线)离群值检测方法[3]遇到了类似的训练问题。出于这些原因,我们使用了[27]中重叠数据集的结果,至少提供了部分比较。请注意,[27]中使用的数据集是我们评估中使用的数据集的子集。结果总结在表3和图3中,其显示了精确度-召回率和ROC曲线。所提出的方法优于现有技术,并且显著提高了异常检测性能,特别是在降低宽范围的操作点上的误报率方面。注意,我们的方法在多个不同的数据集上一致地执行,再合成[28]方法,其实现非常低的FPR 95(<5. 6%),但对于其他两个数据集,它几乎是十倍大(> 43。0%)。6. 结论在本文中,我们提出了一种新的方法,JSR-Net,用于检测未知的异常),并在自动驾驶应用的背景下证明其有效性。我们将问题表述为此,我们提出了一个重建模块,可用于许多现有的语义分割网络。重建模块被训练以识别和重建道路表面,并且其不能重建道路的一部分被用作异常的指示符。重建误差通过可训练耦合块与语义分割耦合,以结合来自已知类别的信息并产生最终的每像素异常分数。我们在三个标准数据集和一个衍生数据集上评估了我们的方法-尽管有很好的结果和检测不同大小异常的能力(例如, 从小瓶子到卡车轮胎),但是该方法仍然产生假阳性,特别是在薄结构上,例如,长裂缝或车道标记。我们还观察到较低图像质量的性能恶化,例如,由于强JPEG伪影或通过脏窗口采集(参见补充材料)。JSR-Net(Ours)checkp1(79.4)JSR-Net(Ours)checkp2(78.0)再合成-PSPNet(62.9)Resynthesis-BayseSegNet(61.9)SDC-Net-logits(28.4)SDC-Net-softmax(14.0)成果管理制(13.1)JSR-Net(Ours)checkp2(94.4)JSR-Net(Ours)checkp1(92.7)再合成-PSPNet(76.4)再合成-BayseSegNet(70.6)SDC-Net-logits(55.0)SDC-Net-softmax(54.6)成果管理制(47.7)JSR-Net(Ours)checkp2(84.0)JSR-Net(Ours)checkp1(73.9)再合成-PSPNet(59.2)再合成-BayseSegNet(39.3)SDC-Net-logits(36.8)成果管理制(17.7)SDC-Net-softmax(3.8)JSR-Net(Ours)checkp1(85.5)JSR-Net(Ours)checkp2(78.3)再合成-PSPNet(66.7)再合成-BayseSegNet(63.8)SDC-Net-logits(24.0)成果管理制(11.4)SDC-Net-softmax(2.6)JSR-Net(Ours)checkp1(3.6)JSR-Net(Ours)checkp2(4.1)再合成-PSPNet(43.1)Resynthesis-BayseSegNet(46.6)SDC-Net-softmax(58.8)SDC-Net-logits(83.9)成果管理制(85.3)JSR-Net(Ours)checkp2(9.2)JSR-Net(Ours)checkp1(12.6)再合成-PSPNet(48.1)Resynthesis-BayseSegNet(65.8)SDC-Net-softmax(76.8)SDC-Net-logits(85.3)成果管理制(91.3)JSR-Net(Ours)checkp2(0.4)JSR-Net(Ours)checkp1(1.7)再合成-PSPNet(5.5)Resynthesis-BayseSegNet(16.7)成果管理制(87.2)SDC-Net-logits(87.5)SDC-Net-softmax(99.3)JSR-Net(Ours)checkp1(2.7)再合成-PSPNet(3.1)JSR-Net(Ours)checkp2(4.0)Resynthesis-BayseSegNet(31.7)成果管理制(85.4)SDC-Net-logits(92.0)SDC-Net-softmax(92.7)精度TPR15659引用[1] 安镇元和赵成俊基于变分自动编码器的重构概率异常检测。IE专题讲座,2(1):1[2] Yoshua Bengio无监督学习和迁移学习的表示深度学习。在Proceedings of ICML Workshop on Unsupervisedand Transfer Learning,第27卷,第17-36页[3] PetraB ev andi c´ 、 I v anKr esˇ o 、 MarinO rsˇic´ 和 Sin isˇaSˇegv ic´。在存在域转移的情况下同时进行语义分割和离群点模式识别 ,第33-47页。Springer InternationalPublishing,2019。[4] H. Blum,P. Sarlin,J.涅托河Siegwart和C.卡德纳鱼景:自动驾驶中安全语义分割的基准。在2019年IEEE/CVF国际计算机视觉研讨会(ICCVW)上,第2403-2412页[5] Paul Bodesheim,Alexander Freytag,Erik Rodner,andJoachim Denzler.多类识别问题中的局部新颖性检测。2015年IEEE计算机视觉应用冬季会议,第813-820页。IEEE,2015年。[6] Varun Chandola、Arindam Banerjee和Vipin Kumar。异常检测:一个调查。ACM计算监视器,41(3),2009年7月。[7] L. Chen,G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。DeepLab:使用深度卷积网络,Atrous卷积和完全连接的CRF进行语义图像分割。IEEE传输模式分析马赫内特尔,40(4):834[8] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成。在国际会议计算中目视,2017年10月。[9] X. Cheng,P.Wang和R.杨卷积空间传播网络学习深度IEEE Trans. Pattern Anal.马赫内特尔,第1-1页[10] F.胆Xception:使用深度可分离卷积的深度学习。 在IEEE会议Comput. 目视模式识别,第1800-1807页[11] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒用于语义城 市 场 景 理 解 的 Cityscapes 数 据 集 。 在 IEEE Conf.Comput.目视模式识别,2016年。[12] C. Creusot和A.穆纳瓦使用压缩RBM道路重建的高速公路上的实时小障碍物在IEEE智能车辆研讨会(IV),第162-167页[13] A. Criminisi和J. Shotton 决策森林:A Uni-分类,回归,密度估计,流形,学习和半监督学习的框架。计算机图形学与视觉的基础与趋势。出版社:Now Pub,2012.[14] A. Dairi,F. Harrou,M. Senouci和Y.太阳使用基于深度学习的立体视觉在驾驶环境中进行无监督障碍物检测机器人和自主系统,100:287[15] P. Dol la'r和C. L. 齐特尼克用于快速边缘检测的结构化森林在International Conference on Computer Vision,第1841-1848页[16] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉:一个开放的城市驾驶模拟器。在第一届机器人学习年会论文集,第1-16页[17] Jannik Fritsch,Tobias Kuehnl,and Andreas Geiger.一种
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功