镜子内外分割方法及其在计算机视觉中的应用

194 浏览量更新于2023-10-12 收藏 5.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8809我的镜子在哪里？杨欣1，刘伟，梅海洋1，徐克1，3，魏晓鹏1，尹宝才1，2，林森.Lau3，†1大连理工大学、2鹏程实验室、3香港城市大学摘要镜子在我们的日常生活中无处不在现有的计算机视觉系统没有考虑镜子，因此可能会被镜子内的反射内容混淆，导致严重的性能下降。然而，将镜子外的真实内容与镜子内的反射内容分离是不平凡的。关键的挑战是镜子通常反射与其表面相似的内容，使得很难区分两者。本文提出了一种新的从输入图像中分割镜面的方法。据我们所知，这是第一个工作，以解决镜像分割问题的计算方法。我们做出以下贡献。首先，我们构建了一个大规模的镜像数据集，其中包含镜像图像与相应的手动注释的面具。该数据集涵盖了各种日常生活场景，并将公开供未来研究使用。其次，我们提出了一种新的网络，称为镜像网络，镜像分割，通过建模的语义和低层次的颜色/纹理之间的内容不连续的第三，我们进行了大量的实验来评估所提出的方法，并表明它优于精心选择的基线，从国家的最先进的检测和分割方法。1. 介绍镜子在我们的日常生活中非常常见和重要。然而，镜子的存在可能会严重降低现有计算机视觉任务的性能，通过产生错误的深度预测（图1（b））或错误地将反射物体检测为真实物体（图1（c））。因此，对于这些系统来说，能够从输入图像中检测和分割镜子是至关重要的。由于由镜子反射的内容与它们外部的内容非常相似（即，周围环境）。这使得它们与其他已处理共同第一作者。[2]Rynson Lau是通讯作者，他领导了这个项目。项目页面：www.example.comICCV2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_2019_远近(a) 图像（b）深度（c）分割(d)我们的深度（f）我们的细分图1：现有视觉任务中镜子的问题。在深度预测中，NYU-v2数据集[32]使用Kinect捕获深度作为地面实况。它错误地预测了反射内容的深度在实例语义分割中， Mask RCNN [12]错误地检测到镜子内的对象（c）。使用WSNNet ，我们首先检测并屏蔽镜像（d）。然后，我们通过从镜子的周围像素和分割图（f）插值深度来获得正确的深度（e）。以及通过最先进的分割方法[47，12]。同时，由于镜子反射的内容可能不一定是显著的，因此直接应用最先进的显著性检测方法[8，21]来检测镜子也是不合适的。在这项工作中，我们的目标是解决镜像分割问题。我们注意到，人类通常可以很好地检测到镜子的存在。为了做到这一点，我们观察到，人类通常试图识别镜像边界处的内容不连续性，以便区分某些内容是否属于镜像的反射。因此，这个问题的一个简单的解决方案是应用低级特征来检测镜像边界。不幸的是，如果物体部分地出现在镜子前面，第二8810图1中的示例。在这种情况下，将对象的反射与对象本身分离可能不是直接的。相反，这种不连续性包括低级颜色/纹理变化以及高级语义。这一观察启发我们利用上下文对比信息进行镜像分割。在本文中，我们从两个方面解决镜像分割问题。首先，我们构建了一个大规模的镜像分割数据集（MSD），它包含了4018对镜像图像及其对应的分割模板，覆盖了各种日常生活场景。其次，我们提出了一种新的网络，称为CNET，具有上下文缓存特征提取（CCFE）模块，通过学习镜子内外的上下文对比来分割不同大小的镜子。我们的主要贡献如下• 我们构建了第一个大规模的镜像数据集，它由4018幅包含镜像及其相应的手动注释镜像掩码的图像组成，取自不同的日常生活场景。• 我们提出了一种新的网络，它结合了一种新的上下文对比特征提取模块，用于镜像分割，通过学习对上下文进行建模，镜子内外的真实对比• 通过大量的实验，我们表明，所提出的网络优于许多基线来自国家的最先进的分割/检测方法。2. 相关工作在本节中，我们简要回顾了相关领域的最新方法，包括语义/实例分割，显着性/阴影检测，以及来自3D社区的镜像检测工作。语义分割它的目的是分配每像素的预测对象类别的输入图像。基于在完全卷积的编码器-解码器结构[25]上，最先进的语义分割方法通常利用多尺度（级别）上下文聚合来学习用于识别对象和划分其边界的区分特征。具体而言，通过馈送记录的池化索引[3]或级联[31]，将低级编码器在[7，42]中使用扩张卷积来扩展感受野以补偿编码器部分中丢失的细节。PSPNet [48]利用金字塔池来获得多尺度表示，以区分相似外观的Zhang等人[46]提出融合低/高级特征，以便在编码器部分中利用Zhang等人[43]建议显式预测场景中的对象，并使用此预测来选择性地突出语义特征。Ding等[10]建议学习上下文对比特征，以提高小对象的分割性能。然而，将现有的分割方法应用于镜像分割（即，将镜子作为对象类别之一）不能解决镜子分割的基本问题，即镜子的反射内容也可以被分割。在本文中，我们专注于镜像分割问题，并将其公式化为二分分类问题（即，镜像或非镜像）。实例分段。它的目标是同时识别，本地化和分割出的对象，同时识别，tiating同一类别的个别实例。现有技术的基于检测的实例分割方法扩展了对象检测方法，Faster-RCNN [30]和FPN [20]，以获得实例映射。Mask RCNN [12] 使用一个额外的分支来从 Faster-RCNN [30]的框预测中预测实例分割掩码。PANet [23]进一步提出在Mask RCNN [12]中添加自下而上的路径以简化特征传播，并将多层次特征用于检测和分割。MaskLab [6]采用Faster-RCNN [30]来定位对象，并将语义分割与像素方向（到其实例中心）预测相结合进行实例分割。另一种工作首先使用分割方法来获得每个像素的标签，然后使用聚类方法通过深度估计[45]，谱聚类[19]和神经网络[38，22]将像素分组为实例。与语义分割类似，实例分割方法无法区分镜像内的内容和镜像外的内容。因此，他们也会分割镜子内的物体。显著目标检测（SOD）。它旨在识别图像中最明显的对象。虽然传统的SOD方法依赖于低级手工制作的特征（例如，颜色和对比度），基于深度学习的SOD方法考虑自下而上和自上而下的显著性推断中的一个或两个。Wang等人[35]提出了将局部像素显著性估计和全局对象建议搜索相结合来进行显著对象检测。还探索了来自深度网络的多级特征聚合，用于检测和改进检测[17，44，13]。最近的工作应用注意力机制来学习全局和局部上下文[21]或学习前景/背景注意力图[8]，以帮助检测显著对象并消除非显著对象。然而，镜子反射的内容可能是突出的，也可能不是。即使它是显著的，也可能只有一部分是显著的。因此，应用现有的SOD方法来检测反射镜可能无法解决反射镜分割问题。阴影检测。它的目的是从输入图像中检测/去除阴影。Hu等人[14]建议使用方向感知功能来分析8811图2：镜像分割数据集（MSD）中的镜像/掩码对示例。它表明我们的MSD涵盖了我们日常生活中包含镜子的各种场景。用于阴影检测的阴影/非阴影区域。Le等人[16]建议用从阴影衰减网络生成的增强对抗阴影示例来训练阴影检测网络。Zhu等[50]提出了一个双向特征金字塔，以利用浅层和深层CNN层的空间上下文。条件GAN [26]也用于对阴影检测[27]和removal [34]的局部特征和全局图像语义进行建模。Qu等人[29]提出一个多上下文网络，以及一个新的数据集，用于阴影消除。通常，阴影检测方法主要基于检测阴影区域和非阴影区域之间的强度对比相比之下，镜子内部和外部的内容通常具有非常相似的强度，使得镜子分割问题更难以解决。3D社区中的镜像检测。据我们所知，在三维重建中考虑镜像分割的只有两种方法。Matterport3D [5]建议用户在iPad上手动分割镜子，扫描Whelan等人[36]将硬件标签（基于AprilTag [28]）附加到扫描仪。如果在捕获的图像中检测到标签，则它发出存在镜子的信号。然后使用基于总变化的分割方法来基于一组手工制作的特征（例如，深度不连续性和强度方差）。在本文中，我们提出了第一个自动镜像分割方法和第一个带有镜像注释的镜像数据集，而不是使用任何特殊的硬件。3. 镜像分割数据集为了解决镜像分割问题，我们构造了第一个大规模镜像数据集，命名为MSD。它包括4018对包含镜子和它们相应的手动注释的掩模的图像。数据集构造。我们使用几个最新的智能手机捕捉图像和Labelme1手动标记的镜子。在捕捉图像时，我们考虑常见类型的镜子（包括化妆镜、服装镜、装饰镜、浴室镜和道路镜），这些镜子通常1https://github.com/wkentaro/labelme用于我们的日常生活场景（例如，卧室、客厅、办公室、花园、街道和停车场）。我们的MSD数据集中的一些示例镜像如图2所示。该数据集包含3，677张室内场景图像和341张室外场景图像。我们的室内图像比室外图像多得多的原因是我们希望在这项工作中专注于室内场景。户外图像主要是提供更多样化的镜子形状和场景。为了以公平的方式将数据集划分为训练集和测试集，我们首先根据镜像类型将图像划分为由于我们可能已经使用具有前景/背景对象和相机方向的不同组合的每个特定镜子拍摄了几个图像，为了确保出现在训练集中的镜子不会出现在测试集中，我们通过随机分割镜子类型来分割图像。最后，我们有3，063张图像用于训练，955张图像用于测试。数据集分析。图3显示了对我们捕获的图像中的镜子属性（包括镜子面积、形状、图像中的位置以及镜子内部/外部之间的全局颜色对比）的统计分析，以深入了解所提出的MSD数据集。• 镜像区域分布。我们将其定义为镜像区域与图像区域之间的比率。如图3（a）所示，大多数反射镜落在（0. 0，0。7]。落在（0. 0，0。1]是小镜子，很容易与其他背景物体杂乱。镜子落在[0。5，0。#35755;，一般都是靠近摄像头的。在这种情况下，前景物体遮挡经常发生。落在[0.95，1。0]不包括在MSD中，因为图像可能无法提供足够的上下文信息，甚至无法让人类确定其中是否存在镜像。• 镜像形状分布。有一些流行的镜子形状（例如，椭圆形和矩形）。然而，如果镜子被前面的物体部分遮挡，因此，镜子的最终形状变得不规则。图3（b）示出了MSD包括不同反射镜形状和多个反射镜的图像8812在CCFE模块的基础上，设计了一种新型的CCFE模块 以分层方式聚合长期背景对比信息，以有效地检测不同尺寸的镜子4.1. 概述    图4说明了建议的镜像分割(a) 反射镜面积分布（b）反射镜形状分布网络，称为网络。它以单张图像为输入，通过特征提取网络（FEN）提取多层次特征。最深的特征，这是充满了se-mantics，然后被馈送到所提出的CCFE模块学习上下文对比的功能定位的镜子与粗镜像地图，通过检测划分边界的对比出现。此镜像映射的功能测试集     作为一个注意力地图，以抑制下一个特征噪声(c)镜像位置分布(d)色彩对比度分布图3：MSD数据集的统计数据我们证明了MSD具有合理的镜面属性分布，包括镜面面积、轮廓、位置和颜色对比度。• 镜像位置分布。为了分析MSD中镜子的空间分布，我们计算概率图来显示每个像素属于镜子，如图3（c）。尽管我们的MSD有覆盖不同位置的镜子，但镜子往往集中在图像的上部这是合理的，因为镜子通常放置在人类视力周围。我们还可以看到，训练/测试分割的镜像位置分布与整个数据集的镜像位置分布一致。• 色彩对比度分布。由于镜像可以反映不可预测的内容，我们分析了全局颜色非镜像区域中的上FEN特征，使得下一个上层可以专注于学习候选镜像区域中的区别性特征。通过这种方式，镜像网络逐步利用上下文对比信息，以从粗到精的方式细化镜像区域。最后，我们对粗网络输出进行上采样，以获得原始图像分辨率作为输出。4.2. 上下文关联特征提取图5示出了所提出的CCFE模块的结构给定由特征提取网络提取的特征，CCFE旨在产生用于检测不同尺寸的镜子的多尺度上下文对比特征。CCFE块。为了有效地检测镜像边界（内容可能会发生显著变化），我们设计了CCFE块来学习局部区域及其周围区域之间的上下文对比特征，如下所示：镜像内部/外部内容之间的对比，以检查我们数据集中的镜像内容是否CCF=f 当地（F，Θ当地）−f上下文（F，Θ上下文），（1）很明显，很容易被发现。我们使用χ2分布-其中F是输入特征。 F当地代表了一个地方骗局，对比度，以衡量两个RGB他-从镜像和非镜像区域分别计算的togram，类似于[18，11]。我们进一步将这种分布与两个现有的数据集进行比较，DUT-OMRON显着性数据集[41]和SBU阴影数据集[33]，如图3（d）所示。我们可以看到，MSD具有最低的全局颜色对比度，这使得镜像分割任务更具挑战性。4. 建议网络我们观察到，为了让人类知道我们是否在看镜子，我们通常在低级颜色/纹理变化以及高级语义信息方面寻找内容不连续性这启发我们去调节镜像区域和非镜像区域之间的对比度为此，我们提出了一种新的上下文对比特征提取（CCFE）块提取多尺度上下文对比特征的镜像定位。建筑用3×3核的卷积（膨胀率= 1）。fcontext表示具有3×3内核的上下文卷积（dilation rate =x ）。Θlocal和Θcontext是参数。CCF是所需的上下文对比功能。我们进一步提出通过考虑非局部上下文对比来学习多尺度上下文对比特征，以避免由附近的真实对象及其在镜子中的反射引起的歧义。因此，我们将膨胀率X设置为2、4、8和16，使得可以获得长范围空间上下文对比度。然后通过注意力模块[37]连接和细化多尺度上下文对比特征，以生成突出划分边界的特征图。CCFE模块。一个大的镜子很容易导致分割不足，因为它里面的内容可能在它自己里面表现出高为了解决这个问题，全球形象应该考虑上下文因此，我们建议通过级联CCFE块来杠杆化全局上下文对比，以形成具有更大接收能力的深度CCFE模块训练集整个数据集8813卷积反卷积注意力上采样Sigmoid输入输出GT深度监督按元素相乘CCFE模块CCFE模块CCFE模块CCFE模块特征提取网络上下文关联的特征提取镜像映射图4：CNONet概述。首先，使用预训练的特征提取网络来提取多尺度特征图。其次，CCFE模块被嵌入到特征提取网络的不同层，以学习不同尺度的上下文对比特征。第三，CNONet以从粗到细的方式利用这些不同尺度的特征来生成镜像图，这些镜像图作为注意力图来帮助上层专注于学习候选镜像区域中的上下文对比特征。第四，随着粗镜像映射从底层向上传播到上层，粗镜像映射的空间分辨率逐渐细化和增加。CCFE块Conv3x3r=1Conv3x3R=2Conv3x3r=1Conv3x3R=2Conv3x3r=1Conv3x3R=2Conv3x3r=1Conv 3x3R=2Conv3x3r=1Conv3x3R=4Conv3x3r=1Conv3x3R=4Conv3x3r=1Conv3x3R=4Conv3x3r=1Conv 3x3R=4Conv3x3r=1CConv 3x3R=8Conv3x3r=1CConv 3x3R=8Conv3x3r=1CConv 3x3R=8Conv3x3r=1Conv3x3R=8C CR 扩张率Conv3x3r=1Conv3x3r=16Conv3x3r=1Conv3x3r=16Conv3x3r=1Conv3x3r=16Conv3x3r=1Conv3x3r=16C级联逐元素减法转换注意力图5：上下文缓存特征提取（CCFE）模块。输入特征通过四个链式CCFE块，每个CCFE块的输出通过注意力模块融合以生成多级上下文对比特征。在每个CCFE块（红色虚线框）中，我们首先并行计算本地信息（通过标准卷积提取）与其周围上下文（通过具有不同膨胀率的膨胀卷积提取）之间的上下文对比，然后通过注意力模块从这些级联的多尺度上下文对比特征中自适应地选择有用的特征。字段，使得全局图像上下文在CCFE模块的更深的块中被捕获。我们还采用注意力模块[37]来突出CCFE模块中不同块的级联多级特征讨论虽然我们在网络设计中从[10]中的上下文对比本地（CCL）块中获得了一些灵感，但我们的网络在动机和实现方面都与CCL块不同。首先，虽然CCL块的目的是检测小物体，我们的CCFE模块，用于通过检测分割边界来定位镜子。它们还作为注意模块，增强镜像区域的特征响应，抑制非镜像区域的特征噪声。第二，CCL块只有一个对比度尺度，并且仅嵌入在最深层中，用于使用语义对比度进行小目标检测的目的。我们将CCL模块扩展到我们的CCFE模块，通过合并多尺度上下文对比特征提取，为在不同的环境中定位镜子提供足够的上下文信息不同的尺寸。我们还将我们的CCFE模块嵌入到特征提取网络的所有侧输出中，使得我们的网络利用来自更深层的丰富语义对比上下文和来自上层的低级对比上下文进行镜像分割。4.3. 损失函数在语义分割、显著目标检测和阴影检测等问题中，通常使用逐像素交叉熵作为损失函数。然而，它对小物体不敏感，并且可以容易地被大物体支配。因此，我们选择lova′ sz铰链损失[4]来优化我们的网络。它是不可微交并（IoU）度量的代理，它保留了IoU度量的尺度不变性。还采用了深度监督[40]来促进学习过程。损失函数为：ΣS损失=wsLs，（2）s=1输入要素输出要素8814其中，WS表示平衡参数。Ls是s-th上采样镜像映射和地面实况之间的lo va′ sz铰链损失4.4. 实现细节我们已经在PyTorch框架上实现了PNET为了训练，输入图像被调整大小为384×384的分辨率，并通过水平随机翻转来增强。我们使用预训练的ResNeXt101网络[39]作为特征提取网络。其余我们网络的一部分是随机初始化的。对于损失优化，我们使用动量为0的随机梯度下降（SGD）优化器。9和重量衰减5 ×10−4。批量大小设置为10。学习率是初始的-设为0。001和衰变的poly策略[24]的权力0。9，160个时期。在等式中有S=4个损失项。2，并且根据经验将平衡参数ws设置为1。网络需要大约12个小时才能汇聚到NVIDIA Titan V显卡上。为了测试，图像的大小也被调整到384×384的分辨率，以进行网络推断。然后，我们使用全连接条件随机场（CRF）[15]，以通过优化像素的空间相干性作为最终的镜像分割结果来进一步增强网络输出。5. 实验5.1. 实验设置评估指标。为了进行综合评价，我们采用了相关领域常用的五个指标（即，语义分割、显著对象检测和阴影检测），用于定量评估镜像分割性能。具体来说，我们使用交集（IoU）和像素精度metrics从语义分割领域作为我们的第一和第二指标。我们还使用了显著对象检测领域的F-测度和平均F-measure定义为精确度和召回率的加权调和平均值：（1 +β2）精确度×召回率比较方法。我们从相关领域中选择最先进的方法进行比较。具体而言，我们从语义分割字段中选择PSPNet [48]和ICNet [47]，从实例分割字段中选择MaskRCNN [12]，DSS [13]，PiCANet [21]，RAS[8]和来自显著对象检测领域的R3Net [9]，来自阴影检测领域的DSC [14]和BDRAR [50]。我们使用他们的公开代码，并在我们建议的训练集上训练它们，以进行公平的比较。5.2. 与最新技术对MSD测试集的评价。表1报告了建议的MSD测试集上的镜像分割性能我们可以看到，我们的方法在所有五个指标上都实现了最佳性能，并且具有很大的优势：交集大于并集（IoU）、像素精度（Acc）、F测量（Fβ）、平均绝对误差（MAE）和平衡误差率（BER）。图6显示了视觉比较。我们可以看到，我们的方法可以有效地定位和分割小镜子（第4，第5和第7行）。虽然现有技术通常对在其内容物之间具有高对比度的大镜子进行欠分段，但是我们的方法成功地检测了作为整体的镜子区域（例如，第1和第3行）。我们的方法还可以准确地描绘出镜区域边界，其中存在由附近物体及其在镜中的反射（第二行）引起的模糊性。在一般情况下，我们的方法可以分割不同大小的镜子与准确的边界。这主要是由所提出的多尺度上下文对比特征学习贡献的更多镜像分割结果。图7显示了我们的CNONet上的一些镜像分割结果。Fβ=β2精确度+召回率，（3）其中，β2设置为0.3，以更加强调查准率而不是查全率，如[2]中所建议的。最后，我们采用阴影检测领域的平衡错误率（BER）来评估镜像分割的它考虑了镜像和非镜像区域的不平衡面积，并计算为：BER=100？（1−1（TP+TN）），（4）2NpNn其中TP、TN、NP和NN分别表示真阳性、真阴性、镜像像素和非镜像像素的数量。表1：与MSD测试集最新技术水平的比较。所有方法都在MSD训练集上训练。“w/o C”是指不使用通用报告格式[15]进行后处理。“统计”是指从我们的训练集中阈值化镜像位置统计，作为用于检测的镜像掩码。最好的和第二好的结果分别用粗体和红色标记方法CRFIoU↑加计↑Fβ ↑MAE↓ BER↓统计-30.760.595 0.436 0.36032.94PSPNet [48]ICNet [47]--63.1857.180.7500.6940.7460.7090.1170.12515.8218.78Mask RCNN [12]-63.100.820 0.756 0.09514.38[第13话]PiCANet [21]RAS [8]R3 Net [9] w/o CR3 Net [9]----√59.0871.6960.4672.6673.190.6650.8440.6950.8050.8050.7430.8080.7580.8400.8450.1250.0880.1110.0800.06818.8211.0217.6111.4711.40DSC [14]BDRAR [50] w/o CBDRAR [50]--√69.6866.9767.390.8160.8210.8200.8110.7980.7920.0870.0990.09311.7912.4812.43不带C的MirrorNet-√78.3878.880.9320.9320.8410.8560.0660.0666.506.438815图像BDRAR[50]DSC[14]RAS[8]PiCANet[21]DSS[13]Mask RCNN[12] [48]第四十七话：我的世界图6：在建议的MSD测试集上，将ASPNET与最先进的方法进行视觉比较与图像的其余部分一致，而绘画/窗口区域内的内容通常不同。CNONet旨在学习镜像区域和外部之间不同级别的上下文对比例如，第2行中的镜子区域反映室内场景，其类似于镜子的周围环境，而图7：CNONet的ADE20K数据集[49]。ADE20K数据集[49]，证明了ADENet的有效性。图8显示了从互联网下载的一些具有挑战性的图像的镜像分割结果。这些图像不仅包含镜子，还包含其他类似镜子的对象，例如绘画（第2、3和6行），窗户（第5行）和门（第4行）。我们可以看到现有的方法被这些类似镜子的对象分散了然而，AnchNet可以区分镜子和绘画/窗户（例如，第2、第3和第5行），因为镜像区域内的内容通常在语义上是一致的。绘画包含了非常不同的场景。这种差异可以通过CCFE模块来学习。我们知道这个假设有局限性，这可能是一个有趣的未来工作。此外，该系统还可以将后视镜与第4排车门区分开来。一个可能的原因是门区域的底部是连续的，因此门区域不被认为是镜子。5.3. 成分分析表2展示了lova'sz铰链损失[4]和建议的CCFE模块的有效性我们可以看到，lo va′ sz铰链损失[4]的性能优于8816基本+CCFE无对比度图像基本碱性+CCFE，含造影剂表2：组分分析。“basic” denotes our net- work with allCCFE modules removed, “CCFE w/o con- trasts” denotesusing multi-scale dilated convolutions“1B4C”表示使用1个CCFE块和4个平行对比度，而“4B1C”表示使用4个CCFE块和1个对比度。我们提出的CCFE模块包含4个块，每个块包含4个对比度提取尺度。图像PSPNet[48]DSC[14]PiCANet[21]PSPNet图8：从互联网上获得的挑战性图像的更多镜像分割结果。二进制交叉熵（BCE）损失在我们的任务中，由于其规模不变的属性。此外，虽然多尺度扩张卷积（即，“CCFE w/o contradicts”）有益于分割性能，我们可以看到，仅使用一个CCFE块与4个并行尺度的对比度提取（“基本+ CCFE w/1B 4C”）可以提高像素精度和BER。相比之下，使用四个CCFE块与一个单一尺度的对比度提取主要提高了IoU。我们提出的多尺度上下文对比特征学习利用了这两者。图9显示了一个可视化示例，其中我们可以看到我们的方法成功地学习了全局上下文对比特征，以解决镜像分割不足问题。6. 结论和未来工作本文提出了一种从输入图像中分割镜面的新方法。我们特别图9：组件分析的可视化示例。输入图像我们的结果图10：失败案例。我们的镜像分割方法可能会失败，在极端的情况下，不足的上下文对比可以提取。构建了第一个大规模镜像数据集（MSD）。它包含4，018个带有镜子和相应遮罩的图像。我们还提出了一种新的网络来利用多尺度上下文对比进行镜像检测。我们已经进行了广泛的实验，以验证所提出的网络相对于为其他相关问题开发的最先进方法的优越性，包括所提出的MSD测试集，ADE 20K数据集[49]以及从互联网上获得的一些具有挑战性的图像。我们的方法确实有局限性。由于它依赖于对输入图像中呈现的上下文对比度进行建模，因此它往往在一些极端场景中失败，在这些极端场景中，可以感知到镜子与其周围环境之间的上下文对比度不足，如图10所示。作为第一次尝试，以解决自动镜子分割问题，我们在本文中的重点是分割镜子，出现在我们的日常生活场景。然而，在一些城市，摩天大楼的玻璃墙可能经常表现出镜子般的效果，并反映周围的物体/场景。也有非常大的镜子，可能会出现在一些商店外面。作为未来的工作，我们有兴趣扩展我们的方法来检测出现在城市街道上的这种镜子，这可能有利于自动驾驶和无人机导航等户外鸣谢。这项工作得到了国家自然科学基金（ 91748104 、 U1811463 、 61632006 、 61425002 和61751203）、浙江大学CAD CG国家重点实验室&开放项目（A1901）、食品安全大数据技术北京市重点实验室开放研究基金（No. BTBD-2018 KF）及香港城市大学的SRG资助（编号：7004889）。网络IoU↑加计↑BER↓基本+ BCE损失74.000.82110.61基本+lova′ sz-铰链损耗[4]75.320.82010.46碱性+ CCFE，不含造影剂78.540.8518.56碱性+ CCFE，带1B4C76.310.8828.02基本+ CCFE，带4B1C78.500.8539.08MirrorNet78.880.9326.438817引用[1] Pytorch https://pytorch.org/网站。[2] Radhakrishna Achanta ， Sheila Hemami ， FranciscoEstrada，and Sabine Susstrunk.频率调谐显著区域检测。CVPR，2009。[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegNet：用于场景分割的深度卷积编码器-解码器架构。IEEE TPAMI，2017年。[4] Maxim Berman ， Amal Rannen Triki ， and MatthewBlaschko.lova'sz-softmaxloss：神经网络中交集度量的优化的易处理的替代在CVPR，2018年。[5] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niebner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：从室内环境中的RGB- D数据学习。在3DV，2017年。[6] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割在CVPR，2018年。[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。使用深度卷积网络和完全连接的CRF进行语义图像分割。2015年，国际会议[8] Shuhan Chen，Xiuli Tan，Ben Wang，and Xuelong Hu.显著对象检测的反向注意。在ECCV，2018。[9] Zijun Deng，Xiaowei Hu，Lei Zhu，Xuemiao Xu，JingQin，Guoqiang Han，and Pheng-Ann Heng. R3net：用于显著性检测的循环残差细化网络在IJCAI，2018。[10] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR，2018年。[11] Deng-Ping Fan ， Ming-Ming Cheng， Jiang-Jiang Liu ，Shang- Hua Gao，Qibin Hou，and Ali Borji.clut- ter中的显著对象：将显著对象检测带到前景。在ECCV，2018。[12] Kaimi ngHe，Geor giaGkioxari，PiotrDolla'r，andRossGir-shick.面罩R-CNN。InICCV，2017.[13] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip Torr.具有短连接的深度监督显著在CVPR，2017年。[14] Xiaowei Hu ， Lei Zhu ，Chi-Wing Fu ，Jing Qin ， andPheng-Ann Heng.用于阴影检测的方向感知空间上下文特征。在CVPR，2018年。[15] Phil i ppK raühenbuühlandVladlenKoltun. 具有高斯边缘势的全连接CRF中的有效推理NIPS，2011年。[16] Hieu Le ， Tomas Yago Vicente ， Vu Nguyen ， MinhHoai，and Dimitris Samaras.A+D Net：使用对抗性阴影衰减训练阴影检测器。在ECCV，2018。[17] Gayoung Lee，Yu-Wing Tai，和Junmo Kim.具有编码的低级距离图和高级特征的深度在CVPR，2016年。[18] Yin Li，Xiaodi Hou，Christof Koch，James Bogg，andAlan Yuille.显着对象分割的秘密。CVPR，2014。[19] Xiaodan Liang ， Liang Lin ， Yunchao Wei ， XiaohuiShen，Jianchao Yang，and Shuicheng Yan.用于实例级对象分割的无建议网络。IEEE TPAMI，2018。[20] 林宗义、多拉尔、葛希克、何凯明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。[21] 刘念，韩俊伟，杨明轩。Picanet：Learning pixel-wisecontextual attention for saliency detection.在CVPR，2018年。[22] Shu Liu，Jiaya Jia，Sanja Fidler，and Raquel Urtasun.Sgn：用于实例分段的顺序分组网络。InICCV，2017.[23] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络。在CVPR，2018年。[24] WeiLiu ， AndrewRabinovich ， andAlexanderBerg.Parsenet ：看得更宽，看得更好。 arXiv ：1506.04579，2015。[25] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。[26] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv：1411.1784，2014。[27] Vu Nguyen ， Tomas Yago Vicente， Maozheng Zhao，Minh Hoai，and Dimitris Samaras.使用条件生成对抗网络进行阴影检测。InICCV，2017.[28] 埃德温·奥尔森Apriltag：一个强大而灵活的视觉基准系统。InICRA，2011.[29] Liangqiong Qu ， Jiandong Tian ， Shengfeng He ，Yandong Tang，and Rynson Lau. DeshadowNet：一个用于阴影消除的多上下文嵌入深度网络。在CVPR，2017年。[30] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn ：实现区域建议网络的实时对象检测。 IEEETPAMI，2017年。[31] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络在MICCAI，2015年。[32] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。室内分割和支持RGBD图像的推理。ECCV，2012年。[33] 我是YagoVicente，LeHou，Chen-PingYu，MinhHoai和Dimitris Samaras。大规模训练阴影检测器与噪声注释阴影的例子。在ECCV，2016年。[34] Jifeng Wang，Xiang Li，and Jian Yang.用于联合学习阴影检测和阴影去除的堆叠条件生成对抗网络。在CVPR，2018年。[35] Lijun

下载后可阅读完整内容，剩余1页未读，立即下载