没有合适的资源?快使用搜索试试~ 我知道了~
现实场景中的玻璃检测及其网络方法
Haiyang Mei1Xin Yang1,4,⋆Yang Wang1Yuanyuan Liu1Shengfeng He211,⋆3,†https://mhaiyang.github.io/CVPR2020_GDNet/indexnearfarnearfar36870别撞我!现实场景中的玻璃检测01 大连理工大学 2 华南理工大学 3 香港城市大学 4 北京大学高级信息技术研究所0摘要0玻璃在我们的日常生活中非常常见。现有的计算机视觉系统忽视了它,因此可能会产生严重后果,例如机器人可能会撞到玻璃墙。然而,感知玻璃的存在并不是一件简单的事情。关键挑战在于任意的物体/场景都可能出现在玻璃后面,并且玻璃区域内的内容通常与其后面的内容相似。在本文中,我们提出了从单个RGB图像中检测玻璃的重要问题。为了解决这个问题,我们构建了一个大规模的玻璃检测数据集(GDD),并设计了一个名为GDNet的玻璃检测网络,该网络利用丰富的上下文线索进行鲁棒的玻璃检测,并采用了一种新颖的大场景上下文特征集成(LCFI)模块。大量实验证明,与针对玻璃检测进行微调的最先进方法相比,所提出的方法在我们的GDD测试集上取得了更优越的玻璃检测结果。01. 引言0玻璃是一种非晶态固体,通常是透明的,具有广泛的实用和装饰用途,例如窗玻璃、玻璃门和玻璃墙。如图1所示,这些玻璃物体对现有的视觉系统(例如深度预测和实例分割)产生了重要影响,并且会进一步影响许多应用程序中的智能决策,例如机器人导航和无人机跟踪,即机器人/无人机可能会撞到玻璃上。因此,视觉系统能够从输入图像中检测和分割玻璃是至关重要的。一些小型的玻璃制品,如杯子和酒杯,可以通过现有的方法很好地检测,因为它们具有相对固定的模式。然而,自动从图1(a)所示的图像中检测玻璃是一项极具挑战性的任务。这是因为一个玻璃区域没有固定的模式,即任意的物体/场景都可能出现在玻璃后面,并且玻璃区域内的内容通常与其后面的内容相似。0� Xin Yang和Xiaopeng Wei为通讯作者。† Rynson W.H.Lau领导此项目。0(a) 玻璃图像 (b) 无校正 (c) GDNet (d) 有校正 图1.现有视觉任务中与玻璃相关的问题。在深度预测中,现有方法[16]错误地预测了玻璃后面场景的深度,而不是玻璃的深度((b)的第一行)。对于实例分割,Mask RCNN[9]只分割了玻璃后面的实例,没有意识到它们实际上是在玻璃后面((b)的第二行)。此外,如果我们直接将现有的单图像反射去除(SIRR)方法[36]应用于只有部分被玻璃覆盖的图像,非玻璃区域可能会被破坏((b)的第三行)。GDNet可以检测到玻璃(c),然后纠正这些失败案例(d)。0区域没有固定的模式,即任意的物体/场景都可能出现在玻璃后面,并且玻璃区域内呈现的内容通常与玻璃后面的内容相似。这使得玻璃与其他常见物体在根本上不同,后者已经被最先进的分割方法[9]很好地解决。同时,直接应用现有的显著目标检测方法[19,24]来检测玻璃是不合适的,因为并非所有的玻璃区域都是显著的。此外,最近的镜子分割方法[38]可能通过检测镜子边界处的内容不连续性来分割镜子。然而,玻璃后面的内容是真实场景的一部分,通常与玻璃外部的场景呈现出较弱的内容不连续性,使得玻璃检测问题更加困难。为了解决玻璃检测问题,一个直接的解决方案是应用反射/边界检测器来36880玻璃检测。然而,如果玻璃只有微弱/部分反射或在某些复杂场景中存在模糊的边界,这种方法可能会失败,例如图1(a)中的第二张图像。一般来说,人类可以很好地识别玻璃的存在。我们观察到人类通常会结合不同的上下文信息来推断玻璃是否存在以及存在的位置。这些上下文不仅包括低级线索(例如,玻璃内外的颜色差异,反射引起的模糊/亮斑/幽灵),还包括高级上下文(例如,不同对象之间的关系)。这启发我们利用丰富的上下文特征进行玻璃检测。在本文中,我们从两个方面解决了玻璃检测问题。首先,我们构建了一个大规模的玻璃检测数据集(GDD),其中包含3,916张高质量的带有玻璃的图像和相应的玻璃掩码,涵盖了各种日常场景。其次,我们提出了一个玻璃检测网络(GDNet),其中嵌入了多个经过精心设计的大场景上下文特征整合(LCFI)模块,从大感受野中获取丰富的低级和高级上下文,以准确地检测不同尺寸的各种场景中的玻璃。总之,我们的贡献如下:0•我们贡献了第一个大规模的玻璃检测数据集(GDD),其中包含多种场景中的玻璃图像和相应的手动标记的玻璃掩码。0•我们提出了一种新颖的网络,其中包含一个经过精心设计的大场景上下文特征整合模块,用于玻璃检测,通过从大感受野中提取丰富的上下文特征。0•通过与针对玻璃检测进行微调的最先进模型进行比较,我们在GDD测试集上取得了优越的玻璃检测结果。我们进一步展示了我们的网络在镜子分割任务中提取丰富上下文的能力。02. 相关工作0在本节中,我们简要回顾了来自相关领域的最先进方法,包括语义/场景/实例分割、显著目标检测、特定区域检测/分割和单幅图像反射去除。语义/场景/实例分割。语义分割旨在将给定的图像分割和解析为与离散对象的语义类别相关的不同区域。场景分割在为每个像素分配标签时进一步考虑了物质。最近,深度神经网络的进步取得了巨大的进展。基于全卷积网络(FCNs)[22],最先进的模型变体通常利用多尺度上下文聚合或利用更多0为了实现高分割性能,需要区分上下文。例如,Chen等人[1]引入了一种空洞空间金字塔池化(ASPP)来捕捉多尺度上下文信息。Zhao等人[46]使用金字塔池化模块来聚合局部和全局上下文。Ding等人[5]探索了上下文对比特征,以提高小物体的分割性能。Zhang等人[40]引入了通道注意机制来捕捉全局上下文。Fu等人[7]利用通道和空间非局部注意模块来捕捉具有长程依赖性的上下文特征。Huang等人[12]进一步提出了一个交叉注意模块,以有效地捕捉来自长程依赖的信息。实例分割旨在区分每个类别的个体实例。一种典型的方法是Mask-RCNN[9],它在目标检测网络Faster-RCNN[25]上添加了一个分支,并取得了良好的结果。PANet[20]进一步添加了自底向上的路径,以聚合多层次的特征进行检测和分割。然而,将上述分割方法应用于玻璃检测(即将玻璃视为其中一种对象类别)可能不合适,因为玻璃后面可能出现任意的对象/场景,使得玻璃与其他对象本质上不同。在本文中,我们专注于玻璃检测问题,并将其形式化为一个二分类问题(即玻璃或非玻璃)。显著目标检测(SOD)。早期的方法主要基于低级手工特征,如颜色和区域对比。许多最先进的深度模型致力于充分利用不同层次特征的整合,以增强网络性能。具体而言,Liu等人[18]逐步整合局部上下文信息来预测显著图。Zhang等人[42]提出了一个通用框架,以在不同分辨率上整合多层次特征。Zhang等人[44]引入了一个注意引导网络,以渐进的方式选择性地整合多层次信息。Zhang等人[41]设计了一个双向消息传递模块,带有门控函数,以整合多层次特征。Wang等人[30]通过在迭代和协作的方式中进行自上而下和自下而上的显著性推理,整合高级和低级特征。一般来说,玻璃区域呈现的内容来自真实场景,而不仅仅是一个或多个显著对象。因此,现有的SOD方法可能无法很好地检测整个玻璃区域。特定区域检测/分割。在这里,我们简要回顾了三个二分类任务:阴影检测、水障碍物检测和镜子分割。阴影检测旨在检测阴影以更好地理解场景。胡等人[11]通过以方向感知的方式分析图像上下文来解决阴影检测问题。朱等人[52]结合了局部和全局的36890图2. 我们玻璃检测数据集(GDD)中的示例玻璃图像/掩码对。它显示了GDD涵盖了日常场景中各种类型的玻璃。0用于阴影检测的上下文。郑等人[50]考虑了阴影干扰。一般来说,阴影区域和非阴影区域之间存在强度差异,而玻璃通常在玻璃内外之间没有明显的强度差异,这使得玻璃检测问题更加困难。水障碍检测是为了检测道路上和道路外的积水区域中的水,以降低自动驾驶汽车的风险。水面上的反射通常是天空或水面上方附近物体的倒置和扰动变换。韩等人[8]提出了一种反射注意力单元,以在垂直方向上匹配这种模式。然而,玻璃上的反射可以从任意方向产生,因此应用这种方法可能不合适。镜子分割是一个新提出的研究课题,旨在从单个RGB图像中分割镜子区域。杨等人[38]观察到镜子内外存在高级别和低级别的不连续性,并利用上下文对比特征来分割镜子。由于镜子中呈现的内容实际上是镜子前方的场景,因此语义和低级别的不连续性通常发生在镜子的边界处。对于玻璃来说,它后面的场景是真实场景的一部分,因此玻璃区域与周围区域之间可能没有太多内容不连续性。因此,利用上下文对比特征来检测玻璃可能无法获得期望的结果。单图像反射去除(SIRR)。当通过玻璃表面拍摄时,反射是一种经常遇到的图像损坏源。这种损坏可以通过单图像反射去除(SIRR)任务来解决。传统的SIRR方法利用不同的先验知识(例如稀疏性[14]、平滑性[29,15]和幽灵[26])来利用透射层和反射层的特殊属性。在最近的基于深度学习的方法中,利用边缘信息[6,28]、感知损失[43]和对抗损失[32]来改善恢复的透射层。SIRR可以看作是一个图像增强问题。它旨在识别反射的位置,然后去除它们以增强背景场景的可见性。我们玻璃检测问题的最终目标不仅是识别反射,而是检测整个玻璃区域,该区域可能只包含部分或较弱的反射。0我们玻璃检测问题的最终目标不仅是识别反射,而是检测整个玻璃区域,该区域可能只包含部分或较弱的反射。03. 用于玻璃检测的新数据集 - GDD0为了促进玻璃检测问题的研究,我们贡献了一个大规模的玻璃检测数据集(GDD)。它包含3,916对玻璃和玻璃掩码图像。据我们所知,GDD是第一个专门用于玻璃检测的大规模基准数据集。数据集构建。玻璃图像是使用一些最新的相机和智能手机拍摄的,并由专业标注员标记了像素级玻璃掩码。我们构建的玻璃检测数据集GDD涵盖了各种日常场景(例如浴室、办公室、街道和商场),其中2,827张图像来自室内场景,1,089张图像来自室外场景。图2显示了GDD中一些示例玻璃和玻璃掩码图像。更多示例可以在补充材料中找到。对于数据集拆分,随机选择了2,980张图像用于训练,剩下的936张图像用于测试。数据集分析。为了验证GDD的多样性和挑战性,我们展示了以下统计数据:0•玻璃类型。如图3(a)所示,GDD中有各种常见玻璃类型(例如橱窗、玻璃墙、玻璃门、玻璃护栏以及窗户和橱柜上的玻璃)。还包括其他相对较小的玻璃物体,如玻璃灯泡和玻璃钟。这些小玻璃物体在GDD中所占比例较小的原因是,我们的目标是检测相对较大的透明玻璃,这些玻璃对场景理解具有重要影响。小玻璃物体主要是为了增加多样性。0•玻璃位置。我们的GDD中的玻璃位于图像的不同位置,如图3(b)所示。我们进一步计算概率图,指示每个像素属于玻璃区域的可能性,以展示GDD中玻璃的位置分布。总体空间分布趋向于中心,因为玻璃通常较大且覆盖中心区域。此外,训练/测试集的玻璃空间分布与整个数据集的分布一致。1.48%3.24%8.58%21.27%43.03%14.91%7.48% window door glass wall shopwindow cabinet glass guardrail other glass objects�01whole datasettraining settest set533641221922572663343543833573033332812331641256533 12������������������������������������������������099328516643659493406259209128 96 72 50 32 145531���������������������������������������������������������Fc = ℵ(convh(convv(F))),(1)36900玻璃面积与图像面积的比例0计数0镜子面积与图像面积的比例0计数0(a) 玻璃类型分布 (b) 玻璃位置分布 (c) 玻璃面积分布 (d) 镜子面积分布 图3.我们数据集的统计信息。我们展示了GDD在类型、位置和面积方面具有合理的属性分布。0•玻璃面积。我们将玻璃区域的大小定义为图像中像素的比例。如图3(c)所示,我们可以看到GDD中的玻璃在大小上变化范围很大,其中大多数玻璃落在[0.2,0.8]的范围内。落在(0,0.2]范围内的玻璃代表小型玻璃物体或玻璃角落。这些小型玻璃区域很容易被各种背景物体/场景混杂。落在(0.8,1.0)范围内的玻璃通常靠近摄像头。在这种情况下,图像的内容由玻璃后面复杂的场景主导。不包括玻璃面积等于0或1的极端情况在GDD中。与镜子分割数据集MSD[38]中的镜子相比(图3(d)),我们的GDD中的玻璃通常具有更大的面积,这意味着更多的物体/场景将呈现在玻璃内部,使得GDD更具挑战性。04. 方法论0我们观察到人类可以通过考虑上下文信息来很好地识别玻璃的存在,包括低级线索(例如,玻璃内外的颜色差异、反射引起的模糊/亮点/幽灵)以及高级上下文(例如,不同物体之间的关系)。这启发我们利用丰富的上下文特征进行玻璃检测。为此,首先,我们提出了一种新颖的大场景上下文特征融合(LCFI)块,从大场景中提取丰富的上下文特征进行上下文推理和玻璃定位。其次,基于LCFI块,设计了一种新颖的LCFI模块,用于有效地整合多尺度大场景上下文特征,以检测不同尺寸的玻璃。第三,我们嵌入多个LCFI模块到玻璃检测网络(GDNet)中,以获得不同级别的大场景上下文特征,以应对各种场景下的稳健玻璃检测。04.1. 网络概述0图4展示了提出的玻璃检测网络(GDNet)。它采用LCFI模块(图5)来学习大场景上下文特征。给定单个RGB图像,我们首先将其输入到多级特征提取器(MFE)中,以获取不同级别的特征,然后将其进一步输入到四个提出的LCFI模块中,学习大场景上下文特征。0文本特征。最后三个LCFI模块的输出被融合以生成高级大场景上下文特征,这些特征将用于引导第一个LCFI模块提取的低级大场景上下文特征更加关注玻璃区域。最后,我们融合高级和关注低级大场景上下文特征来产生最终的玻璃检测结果。04.2. 大场景上下文特征融合0图5展示了我们LCFI模块的结构。给定输入特征,LCFI模块旨在高效有效地提取和整合多尺度大场景上下文特征,以便检测不同尺寸的玻璃。0LCFI block.LCFI旨在从大场景中高效提取丰富的上下文信息,用于上下文推理和玻璃定位。获得更大的上下文信息的常见做法是使用具有大卷积核或扩张卷积的卷积。然而,大卷积核会导致计算量大,而大扩张率会导致稀疏采样。非局部操作[31]可以提供长程依赖性,但也会导致巨大的计算量。在这里,我们提出使用空间可分离卷积来实现从大场景中高效提取丰富上下文的目标:0其中 F 表示输入特征。conv v 和 conv h分别指垂直卷积和水平卷积,卷积核尺寸分别为 k × 1 和 1× k。� 表示批归一化(BN)和ReLU操作。F c表示提取的大场景上下文特征。0由于玻璃区域内的内容通常比较复杂,需要具有不同特征的上下文特征来消除歧义。因此,我们使用另一种具有相反卷积顺序的空间可分离卷积,即 � ( conv v ( conv h ( F ))),来提取互补的大场景上下文特征。此外,我们采用扩张的空间可分离滤波器,以确保在更大的场景中可以探索更多的上下文。最后,通过一个 3 × 3 卷积接着 BN 和ReLU,将从两个并行路径提取的大场景上下文特征进行融合。Large-field Contextual Feature IntegrationCF1234convAttentive FeatureCFLow-level FeatureconvsigmoidOutputsupervisionGTFCattention fusionelement-wise multiplicationconv 3x3BN + ReLUconv 1 x k1dr = r1conv k1 x 1dr = r1BN + ReLUconv 1 x k1dr = r1conv k1 x 1dr = r1BN + ReLUconv 3x3BN + ReLUCCconv 3x3BN + ReLUAttentionoperationsconv 3x3BN + ReLUconv 1 x k2dr = r2conv k2 x 1dr = r2BN + ReLUconv 1 x k2dr = r2conv k2 x 1dr = r2BN + ReLUconv 3x3BN + ReLUCCconv 3x3BN + ReLUconv 1 x k3dr = r3conv k3 x 1dr = r3BN + ReLUconv 1 x k3dr = r3conv k3 x 1dr = r3BN + ReLUconv 3x3BN + ReLUCCconv 3x3BN + ReLUconv 1 x k4dr = r4conv k4 x 1dr = r4BN + ReLUconv 1 x k4dr = r4conv k4 x 1dr = r4CCspatially separable convolution36910输入多级特征提取器0下采样上采样0反卷积0高级特征0反卷积0融合特征LCFI模块0连接0图4. 提出的GDNet的流程。首先,我们使用预训练的ResNeXt101[35]作为多级特征提取器(MFE)来获取不同层级的特征。其次,我们在MFE的最后四层嵌入四个LCFI模块,以学习不同层级的大场景上下文特征。然后,将最后三个LCFI模块的输出进行连接,并通过注意力模块[33]进行融合,生成高级的大场景上下文特征。接着,从这些高级的大场景上下文特征中学习注意力图,并用于引导低级的大场景上下文特征,即第一个LCFI模块的输出,更加关注玻璃区域。最后,通过连接和注意力[33]操作将高级和关注的低级大场景上下文特征相结合,生成最终的玻璃地图。0C 连接 dr扩张率0LCFI模块0BN + ReLU03x3卷积0BN + ReLU0集成的大场景上下文特征0输入特征0图5.LCFI模块的结构。输入特征通过四个并行的LCFI块传递,所有LCFI块的输出被融合以生成多尺度的大场景上下文特征。在每个LCFI块(红色虚线框)中,输入特征被送入两个并行的空间可分离卷积,以获得具有不同特征的大场景上下文特征。当前LCFI块的输出然后被传递给下一个LCFI块,在更大的场景中进一步处理。0LCFI块的公式为:0F_lcfi = �(conv2(concat(�(convv(convh(Fl))),�(convh(convv(Fl)))0F_l = �(conv1(F_in)), (2)0其中F_in表示LCFI块的输入特征,F_lcfi表示集成的大场景上下文特征。conv1和conv2表示带有3×3卷积核的局部卷积。LCFI模块。图像中捕获的玻璃大小可能不同(图3(a))。给定卷积核大小k和膨胀率r,LCFI块从固定大小的大场景中提取上下文特征。一方面,如果这个场景不足以覆盖整个玻璃区域,就会出现不完整的检测。另一方面,如果这个场景对于小的玻璃区域来说太大,就会引入太多噪声并导致误报检测。为了解决这个问题,应该考虑不同尺度的上下文。因此,基于LCFI块,我们提出了一个LCFI模块,从不同尺度的大场景中收集上下文特征。具体而言,我们将输入特征输入到四个并行的LCFI块中,并使用注意力模块[33]融合它们的输出。为了进一步探索更多的上下文特征,我们在相邻的LCFI块之间添加了信息流,即将当前LCFI块的输出传递给下一个LCFI块。通过这样做,将局部特征F_il和来自前一个块的大场景上下文特征F_i-1_lcfi相结合,并由当前LCFI块进一步处理。0检测可能会出现。另一方面,如果这个场景对于小的玻璃区域来说太大,就会引入太多噪声并导致误报检测。为了解决这个问题,应该考虑不同尺度的上下文。因此,基于LCFI块,我们提出了一个LCFI模块,从不同尺度的大场景中收集上下文特征。具体而言,我们将输入特征输入到四个并行的LCFI块中,并使用注意力模块[33]融合它们的输出。为了进一步探索更多的上下文特征,我们在相邻的LCFI块之间添加了信息流,即将当前LCFI块的输出传递给下一个LCFI块。通过这样做,将局部特征F_il和来自前一个块的大场景上下文特征F_i-1_lcfi相结合,并由当前LCFI块进一步处理。36920在四个LCFI块中,对于空间可分离卷积,我们将卷积核大小k设置为3、5、7、9,膨胀率dr设置为1、2、3、4。尽管我们在模块设计中从[27]的集成连续膨胀(ISD)模块中汲取灵感(即在不同路径/块之间添加信息流),但我们提出的LCFI模块在动机和实现上与ISD有本质的区别。ISD模块旨在提取嵌入在各种上下文中的显著对象的不变特征,而我们的LCFI模块旨在通过探索不同尺度的大场景上下文信息来定位不同尺寸的玻璃。此外,ISD使用3×3卷积和大膨胀率(例如r=16)来捕获大场景上下文。我们认为以这种方式提取的上下文对于完整的玻璃检测是不足够的(图6)。相反,在每个LCFI块中,我们利用空间可分离卷积从大场景中提取丰富的上下文线索。04.3. 损失函数0我们在训练过程中采用了三种损失函数,即二元交叉熵损失(BCE)l_bce,边缘损失l_edge[49]和IoU损失l_iou[24]来优化网络。具体来说,对于高级大场景上下文特征,我们将BCE损失和IoU损失相结合,即L_h = l_bce +l_iou,以迫使它们探索完整玻璃检测的高级线索。对于关注低级大场景上下文特征,我们希望它们为预测具有清晰边界的玻璃地图提供低级线索。因此,我们将BCE损失和边缘损失相结合,即L_l = l_bce +l_edge。边缘损失将隐含地帮助网络找到属于玻璃的边界。对于最终的输出,我们希望得到具有清晰玻璃边界的完整检测结果。因此,我们将BCE损失、IoU损失和边缘损失相结合,即L_f = l_bce + l_iou +l_edge。最后,整体损失函数为:0Loss = whLh + wlLl + wfLf, (3)0其中wh,wl和wf分别表示Lh,Ll和Lf的平衡参数。05.实验05.1.实验设置0实现细节。我们在PyTorch框架[23]上实现了GDNet。训练时,输入图像被调整为416×416的分辨率,并通过水平随机翻转进行增强。多级特征提取器的参数由预训练的ResNeXt101网络[35]初始化,其他参数随机初始化。使用动量为0.9和权重衰减为5×10-4的随机梯度下降(SGD)来优化整个网络,共进行200个时期。我们0通过多项式策略[21]调整学习率,基本学习率为0.001,幂为0.9。批量大小设置为6,平衡参数wh,wl和wf经验性地设置为1。在NVIDIA GTX1080Ti显卡上,网络收敛大约需要22小时。对于测试,图像也被调整为416×416的分辨率进行推断。对于最终的玻璃检测结果,不需要像全连接CRFs[13]这样的后处理。评估指标。为了全面评估,我们采用了五个指标来定量评估玻璃检测性能。前两个指标是交并比(IoU)和像素准确率(PA),在语义分割领域广泛使用。我们还采用了来自显著目标检测领域的F-measure和平均绝对误差(MAE)指标。F-measure是平均精度和平均召回率的调和平均值,公式为:Fβ = (1+β2)×Precision×Recall0β2Precision + Recall。我们设置β2 =0.3,以强调精度优于召回率,如[3]中建议的。最后一个指标是平衡错误率(BER),它是阴影检测领域的标准指标。它的定义为:BER = (1 - 10其中TP,TN,Np和Nn分别表示真正例像素的数量,真负例像素的数量,玻璃像素的数量和非玻璃像素的数量。请注意,与前三个指标不同,对于MAE和BER,它们的值越低,检测结果越好。05.2.与最先进方法的比较0与其他相关领域的18种最先进方法相比较。作为从单个RGB图像中检测玻璃的首次尝试,我们通过与其他18种最先进的方法进行比较来验证我们的GDNet的有效性。具体而言,我们选择了来自语义分割领域的IC-Net [45],PSPNet[46],DenseASPP [37],BiSeNet [39],P-SANet[47],DANet [7]和CCNet[12],来自显著目标检测领域的DSS [10],PiCANet[19],RAS [2],R3Net [4],CPD [34],PoolNet[17],BASNet [24]和EGNet[48],来自阴影检测领域的DSC [11]和BDRAR[52],以及来自镜像分割领域的MirrorNet[38]。为了公平比较,我们使用它们的公开代码或推荐参数设置的实现。所有方法都在GDD训练集上重新训练。在GDD测试集上进行评估。表1报告了在提出的GDD测试集上进行玻璃检测的定量结果。我们可以看到我们的方法在所有五个指标上都优于其他所有最先进的方法。图7显示了我们的方法与其他方法的定性比较。可以看到我们的方法能够准确地检测出小玻璃(例如,前三行)和大玻璃(例如,第4-7行)。这主要是因为LCFI模块提取的多尺度上下文特征可以帮助网络更好地定位和分割玻璃。ICNet [45]69.590.8360.8210.16416.10PSPNet [46]84.060.9160.9060.0848.79DenseASPP [37]83.680.9190.9110.0818.66BiSeNet [39]80.000.8940.8830.10611.04PSANet [47]83.520.9180.9090.0829.09DANet [7]84.150.9110.9010.0898.96CCNet [12]84.290.9150.9040.0858.63DSS [10]80.240.8980.8900.1239.73PiCANet [19]83.730.9160.9090.0938.26RAS [2]80.960.9020.8950.1069.48R3Net* [4]76.710.8690.8690.13213.85CPD [34]82.520.9070.9030.0958.87PoolNet [17]81.920.9070.9000.1008.96BASNet [24]82.880.9070.8960.0948.70EGNet [48]85.040.9200.9160.0837.43DSC [11]83.560.9140.9110.0907.97BDRAR* [52]80.010.9020.9080.0989.87MirrorNet* [38]85.070.9180.9030.0837.67GDNet87.630.9375.6236930方法 IoU ↑ PA ↑ Fβ ↑ MAE ↓ BER ↓0统计 40.75 0.584 0.564 0.451 39.310GDNet (我们的) 87.63 0.939 0.937 0.063 5.620表1.与GDD测试集上的最新技术的定量比较。所有方法都在GDD训练集上重新训练。*表示使用CRFs[13]进行后处理。“统计”表示将我们的训练集中的玻璃位置统计信息作为玻璃掩码进行检测。红色、绿色和蓝色分别标记了第一、第二和第三个最佳结果。我们的方法在所有五个常见的评估指标下都达到了最新技术水平。最新技术通常会被与玻璃区域相似边界/外观的非玻璃区域所混淆,而我们的方法可以成功消除这种模糊性,仅检测出真正的玻璃区域(例如,第1行、第7行和第8行)。这主要是由于所提出的大场景上下文特征学习的贡献,它为上下文推理和玻璃定位提供了丰富的上下文信息。05.3. 更多玻璃检测结果0图8进一步展示了在GDD测试集之外的图像上的一些玻璃检测结果,即从ADE20K数据集[51](前三列)和从互联网下载的图像(第4-12列)中选择的图像。我们可以看到,GDNet在这些不同的情况下表现良好,证明了GDNet的有效性。05.4. 组件分析0表2评估了提出的LCFI模块的有效性。我们可以看到,多尺度卷积可以提高检测性能。此外,在LCFI模块中使用扩张卷积(即LCFI带稀疏)比使用本地卷积(即LCFI带本地)效果更好,因为可以从更大的感受野中探索上下文。0网络 IoU ↑ F β ↑ BER ↓0基准 84.89 0.923 7.400带一个尺度 86.22 0.931 6.51 带两个尺度 86.78 0.9326.340带本地 86.93 0.932 6.36 带稀疏 87.13 0.933 5.880带一个路径 87.31 0.935 5.810表2.组件分析。“基准”表示我们的网络中去除了所有LCFI模块。“一个尺度”和“两个尺度”表示LCFI模块中有一个和两个LCFI块。“本地”表示用本地卷积替换LCFI中的空间可分离卷积,并保持参数大致相同。“稀疏”采用扩张卷积以实现与空间可分离卷积类似的感受野。“一个路径”表示每个LCFI块中只有一条空间可分离卷积路径。我们的LCFI模块包含四个LCFI块,每个块包含两条并行路径。0图像 基准 基准 + LCFI 带本地 基准 + LCFI 带稀疏 GDNet0图6. GDNet与变体的视觉比较。0方法 IoU ↑ PA ↑ F β ↑ MAE ↓0MirrorNet* [38] 78.95 0.935 0.857 0.065 GDNet(我们的) 80.31 0.943 0.876 0.0580表3. 与MirrorNet [38]在MSD测试集上的比较。0使用空间可分离卷积(即LCFI w/ onepath),在大约相同数量的参数下,可以从大场景中获取更多上下文以进一步提升性能。最后,通过两个并行的空间可分离卷积路径可以获得具有不同特征的大场景上下文特征,并帮助GDNet实现最佳检测结果。图6显示了一个视觉示例。我们可以看到,我们的方法通过从大场景中提取丰富的上下文特征成功解决了玻璃欠分割问题。05.5. 镜子分割0借助精心设计的大场景上下文特征集成模块,我们的GDNet可以从大场景中探索丰富的上下文信息,因此具有处理其他具有挑战性的视觉任务的潜力。这里,我们以镜子分割为例。我们在镜子分割数据集MSD[38]上重新训练我们的GDNet,并在表3中展示结果。这些结果表明,大场景上下文信息可以有效提升镜子分割的性能。36940图像BDRAR[52] DSC[11] EGNet[48] PoolNet[17] RAS[2] CCNet[12] DANet[7] PSANet[47] MirrorNet[38] GDNet GT 图7.在提出的GDD测试集上,将GDNet与最先进的方法进行视觉比较。0图8. 在GDD测试集之外的图像上的更多玻璃检测结果。0输入图像我们的结果图9. 失败案例。06. 结论0在本文中,我们提出了从单个RGB图像中检测玻璃的重要问题,并提供了一个覆盖我们日常生活中各种场景的大规模玻璃检测数据集(GDD)。我们还提出了一种新颖的网络来解决这个具有挑战性的任务。它利用从大场景中提取的高级和低级上下文来检测0不同场景中不同大小的玻璃。对GDD测试集内外的图像进行了广泛的评估,验证了我们网络的有效性。我们的方法在某些情况下可能会失败,例如场景非常复杂或提供的上下文在玻璃内外都不足,如图9所示。作为解决玻璃检测问题的首次尝试,我们在本文中专注于从单个RGB图像中检测玻璃。作为未来的工作,我们希望探索如何解决上述失败情况。0致谢。本工作得到了中国国家自然科学基金会的部分支持,编号91748104、61972067、61632006、U1811463、U1908214、61751203,以及中国国家重点研发计划的部分支持,编号2018AAA0102003和2018YFC0910506。36950参考文献0[1] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos,Kevin Murphy, and Alan L Yuille. Deeplab:使用深度卷积网络、空洞卷积和全连接CRFs的语义图像分割. IEEETPAMI,2017年。[2] Shuhan Chen,Xiuli Tan,BenWang和XuelongHu。反向注意力用于显著目标检测。在ECCV,2018年。[3]Ming-Ming Cheng,Niloy J Mitra,Xiaolei Huang,Philip HSTorr和Shi-Min Hu。基于全局对比度的显著区域检测。IEEETPAMI,2014年。[4] Zijun Deng,Xiaowei Hu,LeiZhu,Xuemiao Xu,Jing Qin,Guoqiang Han和Pheng-AnnHeng。R3net:用于显著性检测的循环残差细化网络。在IJCAI,2018年。[5]Henghui Ding,Xudong Jiang,Bing Shuai,Ai QunLiu和GangWang。上下文对比特征和门控多尺度聚合用于场景分割。在CVPR,2018年。[6] Qingnan Fan,Jiaolong Yang,GangHua,Baoquan Chen和DavidWipf。用于单幅图像去反射和图像平滑的通用深度架构。在ICCV,2017年。[7] Jun Fu,Jing Liu,Haijie Tian,Yong Li,YongjunBao,Zhiwei Fang和HanqingLu。用于场景分割的双重注意网络。在CVPR,2019年。[8]Xiaofeng Han,Chuong Nguyen,Shaodi You和JianfengLu。使用具有反射注意单元的FCN进行单幅图像水障碍物检测。在ECCV,2018年。[9] Kaiming He,Georgia Gkioxari,PiotrDollar和Ross Girshick。Mask R-CNN。在ICCV,2017年。[10]Qibin Hou,Ming-Ming Cheng,Xiaowei Hu,AliBorji,Zhuowen Tu和PhilipTorr。具有短连接的深度监督显著目标检测。在CVPR,2017年。[11] Xiaowei Hu,Lei Zhu,Chi-Wing Fu,JingQin和Pheng-AnnHeng。用于阴影检测的定向空间上下文特征。在CVPR,2018年。[12] Zilong Huang,Xinggang Wang,Lichao Huang,ChangHuang,Yunchao Wei和Wenyu Liu。CCNet:用于语义分割的交叉注意力。在ICCV,2019年。[13] PhilippKr¨ahenb¨uhl和VladlenKoltun。具有高斯边缘势的全连接CRF的高效推理。在NIPS,2011年。[14] Anat Levin和YairWeiss。使用稀疏先验从单幅图像中分离反射。IEEETPAMI,2007年。[15] Yu Li和Michael S.Brown。使用相对平滑性进行单幅图像层分离。在CVPR,2014年。[16] Zhengqi Li和Noah Snavely。Megadepth:从互联网照片中学习单视图深度预测。在CVPR,2018年。[17]Jiang-Jiang Liu,Qibin Hou,Ming-Ming Cheng,JiashiFeng和JianminJiang。用于实时显著目标检测的简单基于池化的设计。在CVPR,2019年。[18] Nian Liu和Junwei Han。DHSNet:用于显著目标检测的深层次显著性网络。在CVPR,2016年。[19]Nian Liu,Junwei Han和Ming
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功