没有合适的资源?快使用搜索试试~ 我知道了~
43213697渐进式镜像检测林嘉颖,王国栋,王林森。香港城市大学计算机科学系摘要镜子检测问题是重要的,因为镜子可以影响许多视觉任务的性能。这是一个困难的问题,因为它需要理解全局场景语义。最近,提出了一种通过学习镜子内外多层次的上下文对比来检测镜子的方法,该方法隐式地定位镜子的边缘。我们观察到,镜子的内容反映了它周围的内容,被镜子的边缘分开因此,我们在本文中提出了一个模型,逐步学习的内容之间的相似性的内部和外部的镜子,同时明确地检测镜子的边缘。 我们的工作有两个主要贡献。 第一、提出了一种新的关联上下文对比局部(RCCL)模块,用于提取和比较镜像特征及其对应的上下文特征;提出了一种边缘检测和融合(EDF)模块,用于通过显式监督来学习复杂场景中的镜像边缘特征。其次,我们构建了一个具有挑战性的基准数据集的6,461镜像。与现有MSD数据集的多样性有限不同,我们的数据集覆盖了各种场景,规模更大。实验结果表明,我们的模型优于相关国家的最先进的方法。1. 介绍镜子在我们的日常生活中无处不在。由于它们可以影响许多视觉任务的性能,例如深度预测和对象检测,因此它们开始接受一些讨论[5,2]。例如,Andersonetal.[2] 注意,镜子是视觉和语言导航(VLN)任务中的潜在障碍,并且用于VLN的现有方法倾向于忽略镜子。Braun等人[5]发现由镜面反射引起的误差是人体检测问题中的六种主要误差类型之一。Zendel等人[30]对计算机视觉任务的实验数据集进行安全分析,并发现镜子的存在是这些任务的危险因素。最近,Yanget al. [29]第一次尝试自动检测镜像。 他们提出了一个模型,称为和平号-0†Rynson W.H.刘先生为通讯作者。他领导这个项目。(a) 投入(b)GT(c)PSPNet(d)PSPNet(e)Ours图1:现有方法失败的两种流行场景[32,29]。虽然PSPNet [32]是一个分割模型,但PSPNet [29]是为镜像检测而设计的。由于BSNet基于提取对比特征,因此它错误地分割了顶部图像中的镜像区域,并错误地将底部图像中的窗口和壁炉检测为镜像。相比之下,我们的模型提取相应的上下文特征之间的内部和外部的镜子,以准确地识别镜像区域。rorNet,分割镜子从一个单一的图像的基础上提取多层次的上下文对比功能。通过提取上下文对比度信息,他们的方法隐式地学习检测镜子边缘以分割镜子。然而,当镜子的内部和外部之间的上下文对比不明显时,该方法可能失败。图1的第一行显示了一个非常常见的场景,其中一个人正在看(a)中的镜子。由于他和他的镜像具有几乎相同的外观并且彼此重叠(即,人的手臂和他在反射中的衣服),它们之间的视觉对比很小。如果我们使用Mir- rorNet检测镜子,它会被混合物混淆,无 法 正 确 分 离 两 者 , 如 ( c ) 所 示 。 此 外 , 由 于MirrorNet只考虑上下文对比度,因此更容易过度预测镜像区域。在图1的第二行中,镜子、窗户和壁炉都表现出与周围环境的背景对比。因此,CNONet无法区分它们,并将它们全部检测为镜像。为了解决上述问题,我们在本文中提出了一种新的方法来检测镜子。我们注意到镜子的内容反映了它周围的环境。这意味着镜子内的物体和镜子外的物体之间经常存在对应关系。在这项工作中,我们以渐进的方式探索这种对应关系。图2解释了我们的想法。我们可以从(b)43213698即使是人类也很难仅仅通过镜子的内容来识别它。然而,一旦我们能够在镜子内的一些物体与镜子外的物体之间建立联系,我们就可以推断出潜在的镜子区域,如(c)所示。最后,我们可以通过显式检测镜像边缘来过滤和细化我们推断的镜像区域,如(d)所示。我们的镜子检测方法是基于两个新的模块。首先,我们提出了一个关系上下文对照局部(RCCL)模块,以提取所有的上下文对照和关系特征,以找出所有潜在的镜像区域。其次,我们提出了一个边缘检测和融合(EDF)模块,明确地检测镜像边缘在多尺度。使用细化网络,基于来自RCCL的关系上下文对比特征和来自EDF的边缘信息来提取镜像区域。为了训练我们的模型,我们还提出了一个镜像数据集。虽然Yanget al. [29]如图3所示,提出了4,018幅带有地面实况注释的图像的MSD镜像数据集,它们的许多图像彼此非常相似,因此具有相似的上下文。此外,它们中的大多数是室内场景的放大图像。这会大大降低训练模型的鲁棒性。因此,我们构建了一个更具挑战性的基准数据集,其中包括各种镜像和上下文。它来自于为不同问题开发的六个公共图像数据集。我们的数据集包含总共6,461个镜像图像和相应的注释掩码。我们已经进行了大量的实验来评估我们的模型,与最先进的方法相比,并表明所提出的模型在MSD数据集和我们的数据集上都优于现有的方法。我们的主要贡献可以概括为:• 我们提出了一种新的渐进的镜像检测方法。它基于两个新模块,一个RCCL模块,用于提取和比较对应的镜像特征和上下文特征的规则以及用于提取多尺度镜像边缘特征的EDF模块• 我们提出了一个更具挑战性的基准数据集,它由来自不同场景的6,461个镜像图像和相应的掩模组成。• 我们已经进行了广泛的实验,以评估我们的方法在MSD和我们自己的数据集上的性能,以证明其有效性。2. 相关工作在这一节中,我们简要总结了最近的工作是相关的镜像检测问题。镜像检测。在[29]中,Yanget al.提出了第一个自动镜像检测模型。它专注于提取镜子内外区域之间的多尺度上下文对比特征,这有助于隐式地定位镜子边缘。然而,当两个内容非常相似时,在镜子内部的内容和外部的内容之间具有对比特征的假设可能失败。为了解决这一限制,我们建议在这项工作中明确考虑的内部和外部的镜子的功能之间的关系,以及明确地检测镜子的边缘在多尺度的方式。实验结果表明,该方法可以更准确地检测镜面。显著目标检测。这是一个热门的研究问题,并引起了广泛的关注。早期的方法大多基于低级特征,如先验[28]和区域对比[21,9]。最近的方法大多是基于CNN的。Deng等[11]提出了一种残差学习方法来改进特征细化。Wu等[26]采用级联部分解码器框架来细化显著图。最近的一些工作也解决了显着边缘在显着性对象检测中的重要性。Qin等人[22]提出了一种边界感知的方法和一种新的混合损失来学习像素,补丁和地图级别的显着特征。与显著对象检测不同,显著对象检测假设对象被检测为显著的,镜子并不总是独特的。因此,这种方法不能解决我们的问题。语义分割。这是近年来研究的热点问题。它的目的是分配像素级的cat-egory标签的输入图像。当前最先进的语义分割方法,[31,13,17],已经广泛利用流行的深度CNN来提取用于像素级分类的区分特征。由于单个卷积层的接收域有限,因此语义分割方法还利用多尺度特征来跨不同层对上下文信息进行编码,以实现准确和密集的预测。例如,PSP- Net [35]和DeepLab [8]提出了金字塔池化模块(PPM)和ASPP(atrous spatial pyramidpooling),以有效和有效的方式提取金字塔上下文表示。Ding等[12]建议聚合上下文对比的局部特征和门控的多尺度特征以提高性能。Zhang等人[31]探索使用共现特征进行语义分割的细粒度表示。语义分割方法依赖于对象的出现进行预测。然而,镜子的外观主要反映其周围物体的外观。因此,使用用于镜检测的分割方法可能最终检测镜内部的对象,而不是镜本身。因此,我们专注于这项工作,开发一种更强大的检测器,专门用于镜子。3. 我们的方法本文提出了一种新的渐进镜检测方法。图4显示了管道。我们首先将输入图像馈送到主干特征提取网络[27]以提取多尺度图像特征。为每个43213699我我(a) 图像(b)仅镜像内容(c)关系(d)关系边图2:我们从单个图像中识别镜子的渐进方法的可视化。通过找到镜子内外物体之间的对应关系,然后明确定位镜子的边缘,我们可以更可靠地检测镜子区域。图3:来自MSD数据集的一些示例图像,表明数据集的高度相似性。水平的图像特征,然后我们提取的关系上下文对比( RCC ) 功 能 使 用 建 议 的 关 系 上 下 文 对 比 本 地(RCCL)模块。然后使用解码器将提取的RCC特征解码为镜像映射。此外,我们还提出了一个边缘检测和融合(EDF)模块来显式地检测镜像边缘特征,给定低级图像特征和高级RCC特征作为输入,以输出边界图。最后,我们将来自解码器的不同尺度的预测镜像图和来自EDF模块的边界图馈送到细化模块以产生最终输出镜像图。3.1. RCCL模块我们的关系上下文对比局部(RCCL)模块被设计用于提取关系上下文对比特征。不同于原来的上下文对比本地(CCL)fG,RFE将关系得分R计算为:R(xi,xk)=θ(xTxk),(1)其中xk表示xi的对应像素,θ是线性变换。与非局部方法[24]将图像中除xi以外的所有其他像素都视为xi的对应像素不同,我们根据镜像反射不变量[14]的特性选择对应像素xk为了在我们的搜索阶段完全覆盖像素xi的所有可能的对应像素以及减少冗余计算,我们的方法考虑沿着从xi开始的八个方向的所有像素,即,右侧、左侧、顶部、底部、左上方、右上方、左下方和右下方的所有像素作为对应像素。与原始的非局部方法相比,该方法在分割过程中承受了巨大的计算负担,我们的RFE具有更小的对应像素集,以实现有效的镜面检测。总而言之,fGR中的每个像素zi是从像素z i计算的。xiinfG,通过:在[12]中的块和[29]中的上下文对比特征提取(CCFE)模块的基础上,我们还尝试考虑上下文对比和上下文特征之间的关系Σ8i=0(J01-02-2013(Σk∈Djθ(xTxk),(2)相似性。我们考虑上下文相似性的原因是我们注意到镜子的内容有时可能与镜子外部周围的内容相似,例如,一面镜子在一面白墙的前面,同时反射另一面白墙。我们的 RCCL模块由 两个模块组 成:全局 关系(GR)块和上下文对比局部(CCL)块。给定输入图 像 特 征 fin , 我 们 首 先 使 用 全 局 特 征 提 取 器(GFE)提取全局特征fG,使用局部特征提取器(LFE)提取局部特征fL,并且使用上下文特征提取器(CFE)提取上下文特征fCGR块中的关系特征提取器(RFE)将全局特征f G作为输入以提取全局关系特征f GR。具体地,对于每个像素xi,其中D j是沿着方向j的像素的索引的集合,并且xk是指沿着给定方向的xi的对应像素。θ是一个线性变换。 γj是一个可学习的因子。S是sigmoid函数。 我们列举了xi周围的八个方向,得到了它的空间对应关系.对于CCL块中的f L和f C,我们通过从f L中减去f C来提取上下文对比图,使得可以提取潜在的镜像区域。然后,我们将减去的特征与f GR相乘,以形成最终关系式上下文特征fRC。全局特征提取器是一个具有批量归一化的1×1卷积层。局部特征提取器是一个3×3卷积层,具有1个步幅,432137001个膨胀率和1个填充。上下文特征提取器类似于43213701RCRC在in周边空白图图4:我们的网络概览。 骨干网络[27]首先提取多尺度图像特征,通过RCCL模块提取关系上下文特征。然后,每个解码器将关系上下文特征作为输入并输出镜像映射。EDF模块提取镜像边缘特征以产生边界图,给定输入的低级图像特征和高级关系上下文特征。最后,细化模块获取所有镜像映射和边界映射,以输出最终镜像映射。塞林GR块图1,这需要高级语义来帮助更准确地检测镜像区域的边界。图6显示了EDF模块的体系结构我们首先取最低和第二低级别的脊椎特征fL1和fL2,以及最高级别的在inCCL块图5:关系上下文对比本地(RCCL)模块的体系结构。GFE是一个全局特征提取器. RFE是一个关系特征提取器。LFE是一个局部特征提取器。CFE是一个上下文特征提取器。所有这些提取器一起帮助提取关系上下文对比特征。局部特征提取器,但具有不同的膨胀率和填充。在我们的实现中,我们将最高级别RCCL到最低级别RCCL的膨胀率分别设置为2、4、8和8。在RCCL模块由一个1×1卷积层和一个上采样层组成,用于输出中间镜像映射。3.2. 错误扩散模块我们的边缘检测和融合(EDF)模块被设计为提取多尺度镜像边缘特征以产生边界图。与最近的边缘提取模块[34]不同,它只使用低级特征来帮助CNN检测边缘信息,我们的EDF模块在提取镜像边缘时考虑了低级和高级图像特征。我们采用高级图像特征来提取边缘特征的原因是镜子有时可能具有由真实对象在其反射前面重叠而引起的模糊区域边界,例如,顶部图像关系上下文特征,f L4,作为EDF模块的输入,并将它们调整为与输入图像相同的大小。然后,我们使用低级边缘提取器从fL1和fL2提取低级边缘特征EL,并且使用高级边缘提取器从fL4提取高级边缘特征EH。最后,我们使用边缘融合和预测网络来融合低级边缘特征EL和高级边缘特征EH以输出预测边界图。我们之所以单独提取低级和高级边缘特征,然后将它们融合在一起,而不是使用单个边缘提取器,是因为从我们的实验中,我们发现仅使用单个边缘提取器往往会产生稀疏边缘。通过使用单独的边缘提取器,一个可以专注于低级边缘特征,另一个可以专注于高级边缘特征。将这两个结果融合后,可以得到一个更精细的有界映射为了监督我们的EDF模块,我们需要有地面实况边缘。我们使用Canny边缘检测器[7]从数据集中的地面真实掩模中提取镜像边缘,以生成地面真实边缘图。低层边缘提取器由三个卷积层组成,包括256、128和64个滤波器,核大小为3×3和1个填充。高级边缘提取器由卷积层组成,包括512个 滤波器,内核大小为1×1。融合层和预测层都是核大小为1×1的卷积层。EDF输入RCCL公司简介Decoder解码器解码器输出镜像贴图细化RCCL解码器主干功能镜像地图……B.G.联系GFERFE公司LCQCLFE CFE43213702ƒx y xyL4L2RC在L1低水平高级边缘提取器EL杨永高级边缘特征EF边缘(a)(b)(c)(d)(e)(f)连接的低级别功能边缘提取器底层边缘特征融合与预测最终边界图图7:来自形成我们基准的原始数据集的两个错误注释的示例(a)和(d)。而由原始数据集(b)和(e)提供的镜像掩码是图6:边缘检测和融合(EDF)模块的架构。它包含两个边缘提取器,用于低级和高级特征提取,一个边缘融合层和一个预测层,用于融合两组特征以产生最终边界图。3.3. 细化模块为了将预测的边界图与多尺度镜像图组合以形成输出镜像图,我们添加了一个细化模块来学习将所有这些图与输入图像的我们的改进模块是COM-由两个卷积层构成,内核大小为3×3,1个填充和批量归一化。我们先来谈谈-将多尺度镜像映射与输入图像一起作为输入特征生成到细化模块以获得细化镜像特征。然后,我们将精细镜像特征馈送到内核大小为1×1的卷积层,以获得最终镜像地图非常粗糙的是,表示被反射的人的区域不被认为是镜子的一部分。我们相应的地面真值掩码分别显示在(c)和(f)中。数据集MSD我们相似性34.73%百分之二十一点八五表1:MSD和我们的基准的相似性分数。这会显著降低镜面检测方法的鲁棒性。图3显示了八个彼此非常相似的图像。我们还使用SSIM [25]来研究MSD中图像的相似性。我们首先将它们调整为相同的大小,并计算MSD中每对图像的图像相似度之和。然后,我们将总和除以图像对的数量,以获得整个数据集的平均相似性得分:3.4. 损失函数我们使用Lova′ sz-Softmax损失[4]来监督(2μx μy+C1)+(2σxy+C2)SSIM(x,y)=(μ2+μ2+C1)(σ2+σ2+C2)ΣN、(四)多尺度镜像映射的训练对于EDF国防部-利用二进制交叉熵(BCE)损失进行监督相似度=k=1SSIM(xk,yk), (5)N边界图的提取。最终损失函数为:ΣS损失=wsLs+wbLb+wfLf,(3)s=1其中Ls是s-th mir之间的lovasz铰链损失,误差映射和地面实况镜像映射,而Lf是最终输出镜像映射和地面实况镜像之间的洛瓦兹铰链损失。 Lb是二进制交叉熵(BCE)损失。我们根据经验将权重平衡因子ws 、wb、wf分别设置为1、5、2。4. 实验4.1. 数据集数据集。目前,只有一个镜像数据集可用,即,MSD [29],它有4,018个镜像和相应的掩码。然而,我们注意到,MSD主要包括室内场景,带有小镜子。Inpartic- ular, a lot of images in MSD are very similar to eachother,ƒƒ43213703其中μx、μy和σx、σy为平均值和标准偏差。图像x和y的位置。σxy是图像x和y的协方差。 C1和C2是为了避免被零除,并且被设置为0。012和0。032,分别。N是图像对的总数k是第k个图像对的索引,包含两个不同的图像(xk,yk)。相似性分数的范围为0到1。表的第二列1表明MSD具有相当高的相似性得分。为了解决上面讨论的MSD的局限性,我们在这里提出了一个大规模的基准测试,它包含总共6,461个带有地面实况注释的镜像。所有这些图像都来自六个公共数据集:ADE20K [35,36],NYUD-V2 [19],MINC[3],Pascal-Context [18]、Sunday GBD [23]和COCO-Stuff [6]。我们从这六个包含镜像的数据集中选择所有图像。因此,我们的基准包含非常多样化的图像,涵盖各种场景。为了评估图像的多样性,我们还计算了基准的平均相似性得分,如表的第三列所示。1.我们可以看到,我们的基准具有比MSD低得多的相似性得分。43213704图8:我们的基准测试中的图像显示出高多样性和低相似性。它们涵盖了各种各样的日常场景,包括平面镜或凹面镜。(二)评估绩效。Fβ计算为:.Σ1+β2×精确度 ×召回率Fβ=β2×精确度+召回率,(6)其中β2= 0。3如[1]所示平均绝对误差(MAE)计算如下:Mae=1千瓦ΣH|、(7)|,(7)表2:我们的镜面检测基准的组成。我们从六个现有的数据集收集镜像。第二列显示了从六个数据集中的每一个获得的镜像图像的总数,而第三列显示了每个数据集中它们的镜像注释的错误率。此外,我们注意到,尽管所有六个数据集都包含镜像标签,但它们的镜像注释中存在很多标签问题。例如,如图7所示,它们中的许多具有非常粗糙甚至不正确的镜像掩模(左示例),并且一些将被反射对象的区域视为非镜像区域(右示例)。表2总结了各个数据集的镜像注释的错误率。每个错误率表示原始数据集中错误标记图像的百分比。我们已经纠正了基准测试中所有不正确的注释。图8显示了我们的基准测试中的一些示例图像/掩码。我们可以看到它们有更精细的注释。为了在我们的基准上进行评估,我们采用了留一交叉验证策略。因此,我们在六个数据集之一的所有镜像上测试模型,但在其余五个数据集的所有镜像上训练它。我们以类似的方式在六个数据集上进行六次测试,以获得六组结果。4.2. 评估指标我们采用两个流行的指标来定量评估我们的模型的性能。由于镜像检测问题类似于显著目标检测问题,我们使用最大F-测度(Fβ)和平均绝对误差宽×高x=1y =1其中Y是基本事实。W和H是测试图像的宽度和高度。P是预测输出。4.3. 实现细节我们使用ResNeXt101 [27]在ImageNet [10]上预训练作为骨干特征提取网络。我们在PyTorch [20]上实现了所提出的模型,并在带有GeForce RTX2080Ti卡的PC我们使用随机梯度下降作为优化器,动量值为0.9,权重衰减为5e-4。训练阶段的学习率初始化为1e-3。我们使用作为PSPNet [32]。我们将批量大小设置为10,训练时期的数量设置为150。我们将CRF [16]应用于最终输出的预测地图。除了后端网络之外,所有层中的参数都是随机初始化的。在一台GTX 2080Ti上,训练我们的模型需要16个小时,测试每张图像需要0.13秒。4.4. 与最先进方法的比较在这个实验中,我们将我们的方法与相关领域的最先进方法进行了比较。表3显示了MSD数据集和我们提出的基准测试的镜像检测性能。与其他方法相比,我们的方法在Fβ和MAE这两个指标上都取得了最好的性能。图9提供了视觉比较。前三行图像包含一些模糊的区域,看起来类似于镜子。虽然CNONet倾向于将这些区域检测为镜像,但我们的方法可以很好地区分它们并准确地识别镜像区域。在第三排,数据集总数选择的图像错误率ADE20K [35,36]13523.03%COCO-东西[6]376691.72%MINC [3]38716.02%[19]第十九话159百分之十八点八七[23]第二十三话71631.15%Pascal-Context [18]816.17%总646159.04%43213705R Net [11]方法MSDADE20KCOCO-StuffMincNYUD-V2Pascal-contextSUNRGBDFβ ↑MAE↓Fβ ↑MAE↓Fβ ↑MAE↓Fβ ↑MAE↓Fβ ↑MAE↓Fβ ↑MAE↓Fβ ↑MAE↓DSC [15]0.8120.0870.1690.1760.5280.1580.3410.1450.0940.1610.0740.2250.1410.149BDRAR [37]0.7920.0930.6830.1370.6240.2190.3540.1340.6860.1320.4650.2190.6240.204PSPNet [32]0.7460.1170.3510.1060.3440.1260.2890.1850.2370.0700.3360.0480.3710.100R3Net [11]0.8460.0680.7220.0340.6510.0760.5600.0890.6310.0350.5570.0340.6300.039[29]第二十九话0.7690.1110.6950.0300.6020.0810.5310.0720.6550.0380.5500.0390.6060.042BASNet [22]0.7910.0820.6140.0470.5250.1030.5850.0790.4390.0760.3540.0560.4830.064EGNet [33]0.8020.0860.6320.0440.5780.0990.5550.0700.4400.0540.5490.0410.6410.038[29]第二十九话0.8570.0650.7040.1260.6240.1360.6080.0690.7060.1270.4320.1510.6200.105我们0.8980.0450.7430.0290.6590.0740.6210.0630.7260.0340.5600.0300.6570.032表3:MSD数据集(第二列)和我们的基准(第三至第八列)的定量结果。我们将我们的模型与相关的最先进的方法进行比较:阴影检测方法DSC [15]和BDRAR [37];语义分割方法PSPNet [32];显著对象检测方法R3 Net、CPDNet [26]、BASNet [22]和EGNet [33];和镜像检测方法WARNNET [29]。最佳结果以粗体显示。[26]第一届中国国际纺织品展览会[26]BASNet [22][29]第29话我的世界图9:我们的模型的定性结果,与相关的最先进的方法相比认为整个图像可能被镜像覆盖。第四行和第五行图像包含很容易被忽略的镜子。虽然WEBNet无法检测到它们,但我们的方法可以准确地检测到它们。第六行和第七行图像包含与真实物体部分重叠的镜子。因此,真实物体很容易与它们的反射混淆。虽然ZeroNet未能正确区分它们,我们的方法可以准确地分离它们,并且优于所有基线方法。我们还观察到,尽管BASNet [22]和EGNet [33]是用于显着对象检测的边界感知网络,并且在SOD方法中表现良好,但我们的方法在镜像检测方面仍然可以显著优于这两种方法。43213706表4:在MSD数据集上训练和测试的消融研究结果。“基本”表示我们的网络不包括RCCL、EDF和精炼模块。“s-ED”是仅具有单个低级边缘提取器的EDF模块,而不是我 们的“EDF”中 的低 级和 高级 边缘 提 取器 。 “基 本+EDF+RCCL”是完整的模型,但没有细化模块。“我们的”是提议的完整模型。最佳结果以粗体显示。4.5. 消融研究表4证明了我们模型中每个组件的有效性。如最后一行所示,我们最终建议的RCCL模块、EDF模块和细化模块网络在所有指标上均优于其他基准。我们可以看到,仅具有单个边缘提取器(s-ED)的EDF模块无助于提高性能。然而,当基本网络同时包含EDF和RCCL模块(使用顶层镜像映射作为输出)时,它可以大大优于其他消融模型,特别是在Fβ上。我们将其归因于由RCCL模块执行的上下文关系提取过程的效果,这从全局角度极大地有利于镜像检测任务。图10显示了组件分析的可视化示例。 我们可以看到,细化模块可以通过去除过度预测区域来帮助提高性能。为了研究EDF模块的有效性,我们将提取的边缘图可视化,如图11所示。我们可以发现,从高级特征提取的边缘图(d)可以很好地区分红色箭头和它的反射,而从低级特征提取的边缘图(c)失败了。5. 结论在本文中,我们提出了一个渐进的方法,(一)(b)第(1)款(c)第(1)款(d)其他事项(e)(f)第(1)款(g)图10:消融研究的可视化示例。(a)是输入图像,并且(b)是地面实况。(c)到(g)对应于五个消融模型的预测:“基本”、“基本+ s-ED”、“基本+ EDF”、“基本+EDF + RCCL”和我们的。(a) 输入(b)GT(c)LL图(d)HL图11:通过低级和高级特征提取的边缘图的视觉比较。图12:失败案例。我们的模型可能会失败的一些图像非常少的关系和上下文对比信息。来自六个公共数据集的场景。它包括6,461张图像,涵盖了日常场景的镜子。我们的实验结果表明,所提出的模型达到了最先进的性能在我们的基准和实验数据集。我们的方法确实有局限性。由于我们的方法依赖于检测和关联镜子内外的特征,如果一个区域看起来像镜子,甚至从人类的角度来看。在图12中,左边图像中的人后面的墙看起来像一些并且被检测为镜像区域。在右图中,木制框架使两个人的背景看起来像一面镜子。因此,背景也被检测为镜像区域。作为未来的工作,我们目前正在考虑更多的信息,如深度和光场图像,以帮助检测超出人类视觉感知的镜子。用于检测单个图像中的镜子。该方法包括两个新的模块,关系上下文对比局部模块(RCCL)用于提取和比较镜像特征和上下文特征以实现对应性,边缘检测和融合模块(EDF)用于提取多尺度镜像边缘特征。此外,我们还构建了一个具有挑战性的大型基准,引用[1] RadhakrishnaAchanta,SheilaHemami,FranciscoEstrada和SabineSüsstrunk。频率调谐凸极区检测。在CVPR,第1597-1604页[2] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,MarkJohnson,NikoSünderhauf,IanReid,StephenGould,and消融Fβ↑MAE↓基本0.8590.061碱性+s-ED0.8580.068基础+EDF0.8640.062基本+RCCL0.8660.059基础+ EDF + GR0.8740.052基础+ EDF + CCL0.8760.049基础+ EDF + RCCL0.8890.047我们0.8980.04543213707安东·范登亨格尔。视觉和语言导航:在真实环境中解释视觉基础的导航指令。在CVPR中,第3674-3683页[3] Sean Bell,Paul Upchurch,Noah Snavely,and KavitaBala.野外材料识别与上下文数据库中的材料CVPR,2015年。[4] Maxim Berman , Amal Rannen Triki , and MatthewBBlasch k o. lova 'softmaxloss:神经网络中交叉-联合测量优化的可处理代理。在CVPR中,第4413-4421页[5] M. Braun,S. Krebs,F. Flohr和D. M.加夫里拉Eurocity人员:交通场景中人员检测的新基准。IEEE TPAMI,41(8):1844[6] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari Coco-stuff:上下文中的东西类在CVPR,2018年。[7] 约翰·坎尼。 边缘检测的计算方法。IEEE TPAMI,(6):679[8] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,KevinMurphy,andAlanLYuille.Deeplab:使用深度卷积网络、atrous卷积和全连接CRF进行语义图像分割IEEE TPAMI,40(4),2017年。[9] 作者:Niloy J. Mitra,Xiaolei Huang,PhilipH. S. Torr和Shi-Min Hu.基于全局对比度的显著区域检测。IEEE TPAMI,37(3):569[10] J. 邓,W。东河,巴西-地索赫尔湖J. Li,K.Li和L.飞飞ImageNet:一个大规模的分层图像数据库。CVPR,2009。[11] Zijun Deng,Xiaowei Hu,Lei Zhu,Xuemiao Xu,JingQin,Guoqiang Han,and Pheng-Ann Heng. R3net:用于显著性检测的递归残差细化网络在IJCAI中,第684-690页AAAI Press,2018.[12] Henghui Ding , Xudong Jiang , Bing Shuai , Ai QunLiu,and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR,2018年。[13] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhivei Fang,and Hanqing Lu.用于场景分割的双注意网络。在CVPR,2019年6月。[14] Xiaojie Guo,Xiaoxun Cao,Jiawan Zhang,and XuweiLi.MIFT:镜像反射不变特征描述符。在ACCV,第536-545页。Springer-Verlag,2010.[15] Xiaowei Hu,Lei Zhu,Chi-Wing Fu,Jing Qin,andPheng-Ann Heng.用于阴影检测的方向感知空间上下文特征。在CVPR中,第7454-7462页[16] PhilippKraühenbuühl和VladlenKoltun。具有高斯边缘势的全连接CRF中的有效推理。NIPS,第109-117页。2011年。[17] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR,第3431-3440页[18] Roozbeh Mottaghi,Xianjie Chen,Xiaobao Liu,Nam-Gyu Cho , Seong-Whan Lee , Sanja Fidler , RaquelUrtasun,and Alan Yuille.背景在野外物体检测和语义分割中的作用CVPR,2014。[19] Pushmeet Kohli Nathan Silberman ,Derek Hoiem 和RobFergus。室内分割和支持从rgbd图像推断。ECCV,2012年。43213708[20] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan 、 Edward Yang 、 Zachary DeVito 、 ZemingLin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动区分在NIPS Autodiff研讨会,2017年。[21] FedericoPerazzi , PhilippK raéhenbuéhl , YaelPritch ,andAlexander Hornung. 显着性滤波器:用于显着区域检测的基于对比度的CVPR,2012。[22] 秦学斌、张梓晨、黄晨阳、高超、马苏德·德汉和马丁·雅格桑。Basnet:边界感知的显著对象检测.在CVPR,2019年6月。[23] 作者:Samuel P. Lichtenberg,and Jianxiong Xiao. Sunrgb-d:一个rgb-d场景理解基准测试套件。在CVPR,2015年6月。[24] 王晓龙,Ross Girshick,Abhinav Gupta,和KaimingHe.非局部神经网络。CVPR,2018年。[25] Zhou Wang,A.Bovik,H.Sheikh和E.西蒙切利图像质量评估:从错误可见性到结构相似性。IEEE TIP,13(4):600-612,Apr. 2004年[26] 吴哲、李肃、黄清明。用于快速准确的显著对象检测的级联部分解码器在CVPR,2019年6月。[27] Saining Xie , Ross Girshick , Piotr Dollar , ZhuowenTu,and Kaiming He.深度神经网络的聚合残差变换。在CVPR,2017年7月。[28] 杨川,张立和,陆沪川。基于凸包中心先验的图正则化 显 著 性 检 测 IEEE Signal Processing Letters , 20(7):637[29] Xin Yang , Haiyang Mei , Ke Xu , Xiaopeng Wei ,Baocai Yin,and Rynson W.H. 刘我的镜子在哪里在ICCV,2019年。[30] Oliver Zendel ,Katrin Honauer ,Markus Murschitz ,MartinHumenberger,andGustavoFernandezDominguez.分析计算机视觉数据-好的,坏的和丑陋的。在CVPR,2017年7月。[31] Hang Zhang , Han Zhang , Chengguang Wang , andJunyuan Xie.语义分割中的共现特征。在CVPR,2019年6月。[32] Hengshuang Zhao , Jianping Shi , Xiaojuan Qi ,Xiaogang Wang,and Jiaya Jia.金字塔场景解析网络。在CVPR,2017年。[33] Jia-Xing Zhao,Jiang-Jiang Liu,Deng-Ping Fan,YangCao,Jufeng Yang,and Ming-Ming Cheng.Egnet:用于显著对象检测的边缘引导网络在ICCV,2019年10月[34] Yifan Zhao,Jia Li,Yu Zhang,and Yonghong Tian.具有联合边界语义感知的多类部件分析。在ICCV,2019年10月。[35] Bolei Zhou,Hang Zhao,Xavier Puig,Sanja Fidler,Adela Barriuso,and Antonio Torralba.通过ade20k数据集进行场景解析。在CVPR,2017年。[36] Bolei Zhou ,Hang Zhao ,Xavier Puig ,Tete Xiao ,Sanja Fi-dler,Adela Barriuso,and Antonio Torralba.通过 ade20k 数 据 集 对 场 景 的 语 义 理 解 。 IJCV , 127(3):302[37] Lei Zhu ,Zijun Deng ,Xiaowei Hu ,Chi-W
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功