没有合适的资源?快使用搜索试试~ 我知道了~
51670干扰感知阴影检测0Quanlong Zheng Xiaotian Qiao Ying Cao Rynson W.H. Lau香港城市大学计算机科学系0摘要0阴影检测是场景理解中一项重要且具有挑战性的任务。尽管最近基于深度学习的方法取得了令人满意的结果,但现有的方法仍然在视觉上阴影和非阴影区域相似的模糊情况下遇到困难(在我们的上下文中称为干扰)。在本文中,我们提出了一种干扰感知阴影检测网络(DSDNet),通过显式地学习和集成视觉干扰区域的语义在一个端到端的框架中。我们框架的核心是一种新颖的独立、可微分的干扰感知阴影(DS)模块,它允许我们学习干扰感知的、有区分性的特征,以实现鲁棒的阴影检测,通过显式地预测假阳性和假阴性。我们在三个公共阴影检测数据集SBU、UCF和ISTD上进行了大量实验证明了我们的方法。实验结果表明,我们的模型可以提高阴影检测性能,有效地抑制了假阳性和假阴性的检测,达到了最先进的结果。01. 引言0阴影是一种常见的照明现象,由于一些遮挡物对光的遮挡而导致局部表面的颜色和强度变化。因此,检测阴影可以推断出例如光源位置[19, 26]、场景几何[16, 25,15]和相机参数[37]。另一方面,阴影可以阻碍许多视觉任务,例如视觉跟踪[2]、目标检测[23]和语义分割[6]。因此,阴影检测已经被长期研究,并且是一个重要的计算机视觉问题。早期的阴影检测方法主要是基于物理模型,主要基于颜色色度或照明不变性的假设,并使用手工特征,例如照明线索[3, 27, 7]、颜色[4,30]和其他特征[14,41]。随着深度学习在视觉任务上的成功应用,最近的数据驱动模型[17, 32, 28, 24,42]学习使用CNN来检测阴影。它们在传统方法上取得了显著的性能改进。主流方法主要采用两种策略,即扩大训练数据[21]或结合全局上下文信息[24, 34,42]。在自然图像中,通常存在类似阴影的非阴影区域(例如,图1(a)顶部行),因此被错误地检测为阴影(例如,图1(b-d)顶部行),还存在类似非阴影模式的阴影区域(例如,图1(a)底部行),因此被错误地认为是非阴影(例如,图1(b-d)底部行)。在本文中,我们将这些模糊区域称为干扰,并考虑两种类型的干扰:假阳性干扰(FPD)-类似阴影的非阴影区域,和假阴性干扰(FND)-具有非阴影模式的阴影区域。最先进的方法[42,21]倾向于错误地检测这些模糊区域,部分原因是它们的模型平等地对待所有情况,因此需要大量的数据来学习解决这些具有挑战性的模糊问题。因此,有限的标记阴影检测数据[32]限制了这些模型的性能。我们注意到,人类通常可以非常准确地检测阴影,而不受干扰的影响。我们的观察结果是0Ying Cao是通讯作者。这项工作由Rynson Lau领导。0(a)输入图像(b)GT(f)我们的方法(c)BDRAR [42](d)ADNet [21](e)DSC [12]0图1. 具有干扰的阴影检测。现有的方法[42, 21,12]错误地将输入图像中类似阴影的非阴影区域(在(a)顶部行中由红色箭头指示)误判为阴影((b-d)顶部行),并错误地将类似非阴影模式的阴影区域(在(a)底部行中由绿色箭头指示)误判为非阴影((b-d)底部行)。我们的干扰感知模型可以在这两种情况下有利地检测阴影区域。最佳观看效果为彩色。0最近的数据驱动模型[17, 32, 28, 24,42]学习使用CNN来检测阴影。它们在传统方法上取得了显著的性能改进。主流方法主要采用两种策略,即扩大训练数据[21]或结合全局上下文信息[24, 34,42]。在自然图像中,通常存在类似阴影的非阴影区域(例如,图1(a)顶部行),因此被错误地检测为阴影(例如,图1(b-d)顶部行),还存在类似非阴影模式的阴影区域(例如,图1(a)底部行),因此被错误地认为是非阴影(例如,图1(b-d)底部行)。在本文中,我们将这些模糊区域称为干扰,并考虑两种类型的干扰:假阳性干扰(FPD)-类似阴影的非阴影区域,和假阴性干扰(FND)-具有非阴影模式的阴影区域。最先进的方法[42,21]倾向于错误地检测这些模糊区域,部分原因是它们的模型平等地对待所有情况,因此需要大量的数据来学习解决这些具有挑战性的模糊问题。因此,有限的标记阴影检测数据[32]限制了这些模型的性能。我们注意到,人类通常可以非常准确地检测阴影,而不受干扰的影响。我们的观察结果是51680我们的观察是,人类首先会识别分心语义(例如形状、模式、物体),这些是解决模糊性的重要线索,然后将它们与确定的阴影区域进行比较,以做出最终决策。例如,人类认为图1(a)顶部一行中红色箭头指向的暗区域是非阴影,因为我们认识到该区域是纹理模式的一部分,并且与右上角的阴影不均匀。另一方面,我们将图1(a)底部一行中绿色箭头指向的较亮区域识别为阴影,因为该标志的这部分在强度、色度和方向上与阴影的其他部分是一致的。因此,我们假设明确建模潜在模糊区域的语义特征可以提高阴影检测性能。0在本文中,我们提出以分心感知的方式检测阴影。我们设计了一个分心感知阴影(DS)模块,将分心明确地融入到阴影检测任务中。DS模块接收输入图像的视觉特征,并将它们与FND和FPD特征融合,输出分心感知的、有区分性的阴影检测特征。它首先学习提取由图像中的视觉模糊引起的FND和FPD特征,然后根据两种类型的分心特征的特点使用两种不同的策略将分心特征整合起来。具体而言,FND通常具有可变的视觉外观,与一般阴影非常不同,使其非常难以检测。因此,我们使用注意机制选择潜在FN区域周围的特征,并将它们添加到输入图像特征中,以获得增强的FN特征,使模型能够更好地区分FN。另一方面,FPD通常在局部上与一般阴影相似,并且需要更广泛的上下文才能捕捉其特征。因此,我们应用一个卷积块来获得具有更大感受野的FP感知特征,然后从增强的FN特征中减去它们,使模型对FP更不敏感。DS模块被插入到一个多尺度框架中,以在不同尺度上提取分心感知的阴影特征,预测阴影检测图。在三个公共阴影检测数据集SBU、UCF和ISTD上的实验结果表明,我们的方法优于先前的方法,并取得了最先进的结果。0本文的主要贡献如下。首先,我们引入了分心的概念来解决阴影检测问题,从而更准确地检测阴影。其次,我们提出了一个分心感知的阴影模块,将分心语义集成到我们的端到端多尺度阴影检测框架中。我们通过实验证明,我们的模型实现了最先进的阴影检测性能。02. 相关工作0在本节中,我们将重点关注单幅图像阴影检测方法。传统方法。早期的研究基于光照不变性假设开发了基于物理模型的方法[4,3]。这些假设只能适用于高质量和受限制的图像,在复杂的消费者照片上表现不佳。后来,基于各种手工特征提出了更多的方法[14, 20,41]。首先探索了边缘和像素信息。例如,朱等人[41]基于纹理、梯度和强度线索训练了一个分类器。黄等人[14]通过将边缘特征输入SVM[9]来训练阴影检测器。随后,不再单独使用像素级线索,而是探索了区域级线索。例如,郭等人[7]计算了分割区域的光照特征,然后使用个体区域信息和成对关系构建了基于图的分类器。Vicente等人[33]为阴影和非阴影区域训练了分类器,并应用MRF利用成对区域上下文增强性能。以上所有方法都是基于手工特征的,这些特征在复杂场景中不具有区分性。基于深度学习的方法。最近,基于深度学习的阴影检测方法因深度学习在计算机视觉任务中的成功而变得非常流行[8, 29,22]。起初,研究人员主要将CNN视为一个强大的特征提取器,并通过强大的深度特征取得了显著的性能改进。Khan等人[26]首次将CNN应用于阴影检测。他们利用一个7层的CNN从超像素中提取特征,然后将这些特征输入到CRF模型中以平滑检测结果。Shen等人[31]首先通过结构化CNN提取阴影边缘,然后将阴影恢复作为一个优化问题来解决。后来,由于全卷积网络(FCN)[22]的出现,提出了端到端的CNN模型。例如,Vicente等人[32]提出了一个语义感知的堆叠CNN模型,用于提取语义阴影先验,并通过基于补丁的CNN对输出进行改进。最近,正在探索上下文信息。在[24,34]中,采用生成对抗网络(GANs)[5]来捕捉上下文信息,因为对抗训练策略使生成器能够模仿整个数据集的分布。特别地,Nguyen等人[24]提出了一个scGAN模型,其中引入了一个敏感性参数来控制阴影检测器的敏感性。Wang等人[34]提出了一个堆叠的cGAN模型,共同学习阴影检测和去除。Le等人[21]通过减弱阴影区域生成具有挑战性的样本,使用对抗训练策略,将生成的样本与原始图像一起用于训练检测器。…………………………51690输出0输入图像0DS模块0骨干特征0编码器0编码器0编码器0DS模块0DS模块0得分图0融合0融合0融合0图2.网络架构。DSDNet以图像作为输入,以端到端的方式输出阴影图。首先,对图像应用骨干网络以获取不同尺度的特征。在每个尺度上,将骨干特征送入编码器以获取图像特征。之后,应用DS模块生成DS特征。在每个尺度上,我们将其DS特征与来自较小尺度流的上采样DS特征进行串联融合,以预测一组阴影得分图。最后,将所有阴影得分图融合以生成最终的预测图。0与上述上下文获取方法类似,胡等人[12]提出了以方向感知方式探索空间上下文,并采用基于RNN的模块学习四个方向的空间上下文。朱等人[42]提出了一个双向循环模型,将全局上下文和局部上下文结合起来进行阴影检测。王等人[36]提出了使用密集连接聚合多尺度上下文。然而,这些基于上下文的方法在复杂背景的图像上仍然存在问题,因为它们使用上下文来帮助减小地面真值和预测之间的差异,往往满足最常见的情况,而忽视了具有挑战性的情况。在本文中,我们考虑了干扰语义,并提出了一种对复杂背景图像上的阴影检测具有鲁棒性的干扰感知模型。计算机视觉任务中的干扰。干扰线索已经在几个视觉任务中进行了探索,例如语义分割[13]、显著性检测[1,38]和视觉跟踪[43]。现有的工作要么使用干扰线索来过滤掉干扰的输入区域[38],要么抑制负面的高级表示[13,1,43]。与上述方法不同,我们将阴影干扰分为两种类型,FND和FPD,并设计了特定的架构来高效地集成这两种类型的干扰语义。据我们所知,这是第一个在阴影检测中引入干扰语义的工作。03.我们的方法0图2显示了提出的DSDNet的架构。该网络基于DSS[11]构建。与[42]类似,我们选择ResNeXt-101[39]作为骨干网络。DS-DNet以图像作为输入,以端到端的方式预测阴影图。首先,将输入图像输入骨干网络以提取不同尺度的骨干特征。0学习,我们使用了骨干网络每个阶段的最后一个卷积层的输出,即conv1、res2c、res3b3、res4b22和res5c作为骨干特征。在每个尺度上,编码器将骨干特征转换为图像特征。然后,每个DS模块将以图像特征作为输入,并产生DS特征,这些特征捕捉了干扰的语义信息。之后,通过双线性插值对DS特征进行上采样,然后通过自上而下的密集连接进行串联融合,并最终通过卷积层进行融合,类似于[11]。具体来说,设Fk为尺度k的上采样特征。当前尺度的融合特征可以通过以下方式获得:Fmk = Conv(Concat(Fk, ...,F1))。最后,所有阴影得分图通过1x1卷积层融合,并经过sigmoid激活函数输出一个软二值阴影图作为最终输出。03.1.干扰感知阴影(DS)模块0如图3所示,DS模块的输入是图像特征fim ∈RH×W×32,由任何CNN提取,输出是DS特征fds ∈RH×W×32。DS模块旨在明确学习潜在干扰区域的语义特征,并将干扰特征与输入图像特征融合,产生用于阴影检测的干扰感知特征。它主要由FN子模块和FP子模块以及一些操作(红线)组成,用于组合不同的特征。下面详细讨论FN子模块和FP子模块。FN子模块。它旨在学习FN特征ffnd ∈RH×W×32和FN掩蔽特征f′fnd ∈RH×W×32,用于增强输入图像特征fim。它首先对图像特征使用特征提取器提取FN特征。为了强制FN特征的51700图像特征0误报预测0DS特征0误报预测 FN子模块0FP子模块0注意力块 特征提取器0特征提取器Conv块0�� ���� ′ �� ����0�� ������0�� ������0�� ������0�� ������ ′0�� ������ ′0�� ������0�� ����0图3. 分心感知阴影模块(DS模块)的架构。图像特征(f im)通过FN子模块传递,产生FN屏蔽的图像特征(f ′ fnd),将其与fim相加产生FN增强特征f ′ im。FP子模块以f im和f ′ im作为输入,输出FP感知图像特征f ′ fpd,将其从f ′ im中减去得到分心感知特征f ds。0为了捕捉识别潜在FN区域所需的语义,我们使用FN特征进行FN预测,通过估计输入图像上可能的FN位置的软二进制图。然后,将FN特征与图像特征连接,并将其输入到注意力块中生成软掩膜f msk ∈ [0, 1] H × W。然后,通过将fim与重复的fmsk(沿特征通道)逐元素相乘,得到屏蔽图像表示f ′fnd。为了增强FN区域上的特征激活,将f ′ fnd添加到fim中,产生FN增强图像特征f ′ im ∈ R H × W ×32。注意机制旨在使网络能够快速聚焦并增强可能的FN区域周围的特征。这将有助于网络更好地区分FN区域,其视觉外观变化多样且与一般阴影差异很大。0FP子模块。与FN子模块类似,FP子模块用于学习FP特征ffpd ∈ R H × W × 32和FP感知特征f ′ fpd ∈ R H × W ×32,用于进一步增强FN增强特征。它还采用与FN子模块相同架构的特征提取器来提取ffpd。为了使FP特征捕捉潜在FP区域的有用语义,我们以与FN子模块相同的方式预测FP的软二进制图。然后,我们将ffpd与f ′im连接起来,并将其输入到Conv块中生成FP感知图像特征f′fpd,该特征捕捉了FP的特征。由于FP区域与真实阴影的局部相似性,我们使用由几个卷积层组成的Conv块来捕捉更大的上下文信息,这对于区分FP是有用的。0最后,我们从f ′ im中减去f ′fpd以消除FP特征对检测的负面影响。这将使网络对可能的FP干扰更不敏感。03.2. 分心监督0为了训练我们的网络,我们需要对DS模块的FP和FN预测进行监督。不幸的是,标注假阳性和假阴性既昂贵又主观。因此,我们提出根据现有阴影检测模型的预测与其真实阴影地图之间的差异获取近似的FN和FP真值。由于单个模型很难生成所有代表性的干扰,我们结合了多个现有方法的预测结果。具体而言,我们选择了一个基线模型和几个最近的模型([12,42,21])来生成预测。对于每个图像,我们首先计算每个模型的预测与相应的真实阴影地图之间的差异图。然后,将所有差异图组合成最终的差异图,其中假阳性和假阴性被视为真值。我们发现这种近似假阳性和假阴性的方法与我们的模型配合良好,这将在第4.5节中进行演示。03.3. 训练0我们训练网络来同时优化所有尺度上阴影、FN和FP映射的预测,以及最终的阴影映射和最终的FN和FP映射(其中最终的FN/FP映射是通过融合FN/FP映射的预测得到的)。(3)51710通过最小化目标函数来训练我们的网络,以共同优化所有尺度上阴影、FN和FP映射的预测,以及最终的阴影映射和最终的FN和FP映射(其中最终的FN/FP映射是通过融合FN/FP映射的预测得到的):0L = α�0iLi shadow + β�0iLi fn + λ�0iLi fp0+ αLF shadow + βLF fn + λLF fp,(1)0其中Li shadow,Li fn和Lifp分别是第i个尺度上阴影、FN和FP映射预测的损失。LFshadow,LF fn和LFfp分别是最终阴影、FN和FP映射预测的损失。我们将第j个像素的阴影概率表示为pj,其真实值表示为yj(yj =1表示阴影像素,yj =0表示非阴影像素)。我们的第i个尺度上的阴影损失被定义为Li shadow = l1 +l2。l1是加权交叉熵损失,使用类别重新平衡权重来解决图像中通常有比阴影像素更多的非阴影像素的问题:0l1 = �0j(-Nn0Nn + Npyilog(pj) - Np0Nn + Np(1 - yj)log(1 - pj)),0(2)其中j索引图像中的所有像素。Nn和Np分别表示FN和FP像素的数量。l2是一种分心感知的交叉熵损失(DS损失),它对分心像素给予更大的惩罚,以迫使网络更加关注易误检测的区域。0l2 = �0j(-Nn0Nn + Npfndjyilog(pj)0-N0Nn + Npyfpd j (1 - yj)log(1 - pj)),0其中yfndj是FN像素的真实值,yfpdj是FP像素的真实值。对于Li fn、Li fp、LF fn和LFfp,我们使用与公式2中相同的加权交叉熵损失。LFshadow与Li shadow相同。04. 实验0在本节中,我们首先介绍实现细节(第4.1节),评估数据集和评估指标(第4.2节)。然后,我们定量和定性地比较我们的结果与现有的阴影检测方法(第4.3节)和显著目标检测方法(第4.4节)。我们进一步分析了引入分心语义的效果(第4.5节),并进行了详细的消融研究以分析提出的模型(第4.6节)。最后,我们分析了生成分心监督的各种策略的效果(第4.7节)。04.1. 实现细节0网络细节。我们的模型使用PyTorch实现。如上所述,我们选择了ResNext-101作为模型的骨干网络。0为了与最新的工作[42]进行公平比较,我们的网络使用了骨干网络。除非另有说明,我们网络中使用的卷积层都后跟了一个批量归一化层和ReLU激活函数。对于图2中的编码器,它由2个卷积层组成,每个卷积层都有32个大小为3×3的卷积核。对于FN子模块和FP子模块,特征提取器都有2个大小为3×3的卷积层,每个卷积层都有32个卷积核。FN子模块中的注意力块有一个大小为3×3的卷积层,后面跟着一个sigmoid激活函数。至于FP子模块中的Conv块,它由1个残差块组成(其中3个卷积层分别有64个滤波器,卷积核大小分别为1×1、3×3和1×1),后面跟着另外3个卷积层(第一层有64个滤波器,其他两层有32个滤波器,卷积核大小分别为1×1、3×3和1×1)。训练和推理细节。ResNext-101在ImageNet上进行了预训练,其他参数是随机初始化的。我们使用SGD优化器进行参数优化,动量为0.9,权重衰减为5×10^-4,批量大小为10。我们将初始学习率设置为5×10^-3,并通过多项式策略以0.9的幂递减。训练数据通过随机水平翻转进行增强,并将图像调整为320×320。我们训练模型进行了5000次迭代。对于损失权重,我们将α设置为1,β和λ设置为4。对于推理,我们将输入图像调整为320×320,并将其输入到我们的模型中进行预测。最后,我们应用CRF[18]进行后处理以平滑输出。04.2. 数据集和评估指标0数据集。我们使用三个公共数据集UCF [41],SBU[32]和ISTD[32]来评估我们的方法。UCF数据集包含245张图像,其中110张用于评估。SBU数据集是覆盖一般场景的最大阴影数据集,包含4089张训练图像和638张测试图像。ISTD是一个最近提出的用于阴影检测和去除的数据集。它包含1870个阴影图像、阴影图和无阴影图像的三元组,其中540个用于测试。我们只使用它们的图像和阴影图进行阴影检测评估。所有测试图像都提供像素级注释。请注意,对于SBU和UCF,我们在SBU训练数据集上训练我们的模型,并在SBU和UCF上进行测试,如[42,12,21]所述。ISTD仅包含投射阴影图像(阴影对象不可见),与SBU中的图像不同。因此,我们在ISTD训练数据集上重新训练所有模型,并评估它们在测试数据集上的性能。评估指标。我们采用平衡错误率(BER)[33]来定量评估结果,如下所示:0BER = 1 - 0.5 × (N tp0N p + N t0N n), (4)51720SBU UCF ISTD0方法 BER 阴影 非阴影 BER 阴影 非阴影 BER 阴影 非阴影0DSDNet (我们的方法) 3.45 3.33 3.58 7.59 9.74 5.44 2.17 1.36 2.980BDRAR [42] 3.64 3.40 3.89 7.81 9.69 5.94 2.69 0.50 4.87 ADNet [21] 5.37 4.45 6.30 9.25 8.37 10.14 - - - DSC[12] 5.59 9.76 1.42 10.54 18.08 3.00 3.42 3.85 3.00 ST-CGAN [34] 8.14 3.75 12.53 11.23 4.94 11.23 3.85 2.145.55 scGAN [24] 9.04 8.39 9.69 11.52 7.74 15.30 4.70 3.22 6.18 Stacked-CNN [32] 10.80 8.84 12.76 13.0 9.017.1 8.60 7.96 9.230RAS [1] 7.31 12.13 2.48 13.62 23.06 4.18 11.14 19.88 2.41 SRM [35] 6.51 10.52 2.50 12.51 21.41 3.60 7.9213.97 1.860表1. 定量阴影检测结果。我们将我们的方法与最先进的阴影检测方法BDRAR [42],ADNet [21],DSC [12],ST-CGAN [34],scGAN[24]和Stacked-CNN [32]以及显著目标检测方法RAS [1]和SRM [35]进行比较。较低的值表示更好的性能。最佳结果以粗体显示。0其中N tp,N tn,N n和Np分别表示真阳性、真阴性、阴影像素和非阴影像素的数量。BER对于评估类别不平衡的结果非常有效,因此在阴影评估中被广泛使用。较低的分数表示更好的性能。04.3. 与阴影检测方法的比较0我们将我们的方法与最先进的阴影检测方法进行比较:ADNet [21],BDRAR [42],DSC [12],ST-CGAN[34],scGAN [24]和stackedCNN[32]。为了公平比较,我们使用了作者在SBU和UCF上的结果(除了DSC和BDRAR,因为他们在不同的测试集上提供了结果;因此我们在UCF上运行他们提供的模型来获得结果)。对于ISTD,我们使用他们提供的代码在ISTD训练数据集上重新训练了DSC和BDRAR。不幸的是,由于我们无法获得其他方法的结果或代码,我们采用了ST-CGAN[34]中报告的评估值。(对于ADNet,由于我们无法获得训练代码或评估值,我们无法报告任何结果。)表1显示了定量比较结果。结果显示我们的方法在所有三个测试数据集上都具有最佳的BER分数。与最佳性能的现有方法BDRAR相比,我们的方法在SBU和UCF上的BER分数分别降低了5.22%和2.82%。这表明我们的模型具有良好的泛化能力。此外,我们的模型在阴影和非阴影像素上具有更接近的BER分数。一个可能的原因是,我们明确考虑了两种类型的干扰,这迫使网络在阴影和非阴影区域之间均衡其性能。我们进一步展示了一些视觉结果,以定性地比较我们的方法与现有方法,如图4所示。从前三行可以看出,与其他方法相比,我们的方法更能够区分真实阴影和非阴影。0具有阴影外观(潜在的误报)。例如,在第一行中,DSDNet可以准确地检测到阴影区域,而一些现有方法(例如ADNet)倾向于将网球运动员的黑色短裤误判为阴影。在第三行中,现有方法(例如ADNet和BDRAR)将黑暗的铁艺误判为阴影。最后三行显示了一些具有挑战性的情况下的阴影检测结果,其中真实的阴影在视觉上与其背景类似(潜在的漏报)。我们可以看到我们的方法仍然可以成功地消除这些情况的歧义,而其他方法则会错过一些真实的阴影区域。例如,在第四行中,除了BDRAR之外的所有现有方法将阴影区域下的白色条纹的某些部分误判为非阴影(漏报),而BDRAR则无法检测到两条腿之间的非阴影区域。相比之下,我们的方法可以正确地预测它们。最后,我们想研究由我们的DS模块产生的FP和FN预测,如图5所示。这些结果可以说明明确地集成分心语义如何帮助阴影检测,特别是对于一些具有挑战性的情况。例如,在顶部一行中,我们的FP预测器将道路上柱子的黑色部分估计为误报,这有助于我们的模型正确区分该区域与阴影。在第二行中,我们的FN预测器在与周围建筑物具有高视觉相似性的阴影区域上激活。这可以帮助我们的模型解决阴影区域内的可能的歧义。04.4.与显著目标检测方法的比较0显著目标检测方法将图像作为输入,并输出密集的标签预测图。这样的模型可以在阴影检测数据集上重新训练并用于阴影检测。为了比较,我们重新训练和测试了两个最近的显著目标检测模型[1, 35]51730GT图像我们的ADNet [21] BDRAR [42] DSC [12] stkd'-CNN [32] scGAN [24] RAS[1] SRM[35]0图4.我们方法与其他阴影检测方法的定性结果。0GT图像我们的FND FPD0图5.我们的阴影和分心检测的视觉结果。0与我们的相同数据集。我们使用作者的代码重新训练这些模型,并调整参数以获得最佳性能。表1的最后两行报告了结果。我们看到显著目标检测模型在阴影检测上可以给出有希望的结果,并且在某些情况下,它们的表现甚至比一些阴影检测方法[34, 32,24]更好。然而,我们的方法仍然优于它们。04.5.分心语义的影响0为了探索在我们的模型中明确考虑分心语义的有效性,我们将我们的完整模型与其几个变体进行比较:(1)没有DS模块或DS损失:我们在公式3中删除了DS模块和DS损失。这可以被视为一个简单的基准线。(2)0SBU UCF ISTD0没有DS模块和DS损失4.42 8.503.41只有DS模块3.62 7.80 2.60只有DS损失3.898.08 2.500没有FN子模块3.71 7.63 2.57没有FP子模块3.688.43 2.41简单融合3.79 7.68 2.58两个注意力3.668.41 2.38两个卷积3.71 7.79 2.490完整模型(我们的)3.45 7.59 2.170表2.消融研究结果。BER分数在三个数据集上报告。最佳结果以粗体突出显示。0只使用DS模块(3)只使用DS损失。结果报告在表2中。没有DS模块或分心感知损失,我们的模型表现最差。添加DS模块或DS损失都会导致性能大幅提升。当同时使用DS模块和DS损失时,我们的模型(完整模型)达到最佳性能。这表明明确考虑分心对我们的性能至关重要,我们的模型中DS模块和DS损失都是必要的。04.6.消融研究0为了评估所提出的分心感知阴影模块的设计选择,我们将我们的DS模块与其消融版本进行比较:51740SBU UCF ISTD0无监督 3.84 7.60 2.23 单个模型 3.758.73 2.74 我们的模型 4.04 8.37 2.90多个模型 3.45 7.59 2.170表3.不同生成分心监督策略的结果。报告了三个数据集上的BER分数。最佳结果以粗体显示。0模块及其消融版本:0•简单融合:我们用简单的融合方法替换DS模块,将FN特征添加到图像特征中,并从结果特征中减去FP特征以获得DS特征。 •两个注意力:将FP子模块的架构设置为与FN子模块相同。 •两个卷积:将FN子模块的架构设置为与FP子模块相同。 •无FN子模块:我们删除FN子模块,只保留FP子模块。 •无FP子模块:我们删除FP子模块,只保留FN子模块。0在表2(第4-8行)中,我们可以看到简单的融合方法具有最差的性能,这表明直接使用简单的加法进行融合无法有效地融入分心语义。当只考虑一种类型的分心时(第4-5行),性能比我们的完整模型更差,显示了同时考虑两种类型的分心的必要性。当使用相同的架构用于FN和FP子模块(第7-8行)时,性能也比我们的完整模型更差。这表明开发不同的融合策略以适应两种类型分心的独特特征是重要的。04.7.生成分心监督策略0我们进一步探讨了生成分心监督的不同策略的影响,如第3.2节所讨论的:0•无监督:我们删除分心监督,只使用阴影图作为监督(公式2和3)来学习我们的模型。 •单个模型:我们只选择一个基线模型[10]来计算分心监督。 •我们的模型:在我们的模型训练完成后,我们使用我们训练好的模型生成的分心情况作为监督重新训练我们的模型。 •多个模型:我们结合多个现有模型的输出,如我们的完整模型中所使用的。0GT图像 我们的图像0图6.失败案例。我们的方法可能在一些弱阴影图像(顶部)或一些具有非常暗背景的图像(底部)上失败。0表3显示了在SBU、UCF和ISTD三个数据集上的结果。使用多个模型比不使用任何分心监督或仅使用单个模型具有更好的性能。如果不使用任何分心监督信号,模型将很难学习到有用的分心感知特征。我们结合多个模型的策略可以减轻单个模型的偏差,为我们的模型生成更可靠的分心监督。需要注意的是,使用我们训练好的模型生成分心监督的性能最差。可能是因为我们训练好的模型生成的分心情况变得非常罕见,因为它在处理FP和FN方面的卓越性能,迫使我们的模型专注于少数罕见情况,这会损害其在其他常见情况下的性能,导致整体性能下降。05.结论0在本文中,我们提出了一种适用于阴影检测的分心感知阴影检测网络(DSDNet)。我们的网络通过提出的分心感知阴影(DS)模块明确考虑了分心语义。DS模块通过精心设计的融合策略,将输入图像特征与明确学习到的分心特征相结合,产生适用于鲁棒阴影检测的分心感知特征。实验结果表明,我们的模型可以有效解决阴影检测中具有挑战性和模糊性的情况,在SBU、UCF和ISTD数据集上取得了新的最先进性能。尽管我们的方法可以处理大多数具有挑战性的情况,但在一些弱阴影图像(阴影与背景的亮度非常相似)或一些具有非常暗背景的图像(阴影几乎融入背景)上可能会失败,如图6所示。解决这个问题的一个可能方法是通过增加更多的弱阴影样本或暗背景样本来扩充数据集。作为未来的工作,我们计划研究各种类型的极端阴影问题。51750参考文献0[1] S. Chen, X. Tan, B. Wang, and X. Hu.用于显著目标检测的反向注意力。在ECCV,2018年。3,60[2] R. Cucchiara, C. Grana, M. Piccardi, A. Prati, and S. Sirotti.使用HSV颜色信息改进移动物体检测中的阴影抑制。在ITSC,2001年。10[3] G. D. Finlayson, M. S. Drew, and C. Lu.熵最小化用于去除阴影。IJCV,2009年。1,20[4] G. D. Finlayson, S. D. Hordley, C. Lu, and M. S. Drew.关于从图像中去除阴影。TPAMI,2006年。1,20[5] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D.Warde-Farley, S. Ozair, A. Courville, and Y. Bengio.生成对抗网络。在NIPS,2014年。20[6] Y.-P. Guan.基于小波多尺度变换的前景分割和阴影消除。开放信号处理杂志,2008年。10[7] R. Guo, Q. Dai, and D. Hoiem.配对区域用于阴影检测和去除。TPAMI,2013年。1,20[8] K. He, X. Zhang, S. Ren, and J. Sun.深度残差学习用于图像识别。在CVPR,2016年。20[9] M. A. Hearst, S. T. Dumais, E. Osuna, J. Platt, and B.Scholkopf. 支持向量机。IEEE智能系统及其应用,1998年。20[10] Q. Hou, M.-M. Cheng, X. Hu, A. Borji, Z. Tu, and P. Torr.带有短连接的深度监督显著目标检测。在CVPR,2017年。80[11] Q. Hou, M.-M. Cheng, X. Hu, A. Borji, Z. Tu, and P. Torr.带有短连接的深度监督显著目标检测。TPAMI,2018年。30[12] X. Hu, L. Zhu, C.-W. Fu, J. Qin, and P.-A. Heng.阴影检测的方向感知空间上下文特征。在CVPR,2018年。1,3,4,5,60[13] Q. Huang, C. Xia, C. Wu, S. Li, Y. Wang, Y. Song, and C.- C.J. Kuo. 带有反向注意力的语义分割。在BMVC,2017年。30[14] X. Huang, G. Hua, J. Tumblin, and L. Williams.太阳和天空下的阴影边界特征。在ICCV,2011年。1,20[15] I. N. Junejo and H. Foroosh.使用阴影轨迹估计静止摄像机的地理时空位置。在ECCV,2008年。10[16] K. Karsch, V. Hedau, D. Forsyth, and D. Hoiem.将合成对象渲染到传统照片中。TOG,2011年。10[17] S. H. Khan, M. Bennamoun, F. Sohel, and R. Togneri.单个图像的自动阴影检测和去除。TPAMI,2016年。10[18] P. Kr¨ahenb¨uhl and V. Koltun.具有高斯边缘潜力的全连接CRF的高效推理。在NIPS,2011年。50[19] J.-F. Lalonde, A. A. Efros, and S. G. Narasimhan.从单个户外图像估计自然照明。在ECCV,2009年。10[20] J.-F. Lalonde, A. A. Efros, and S. G. Narasimhan.在户外消费者照片中检测地面阴影。在ECCV,2010年。20[21] H. Le, T. F. Y. Vicente, V. Nguyen, M. Hoai, and D. Sama- ras. A+D网络:使用对抗性阴影衰减训练阴影检测器。在ECCV,2018年。1,2,4,5,60[22] J. Long, E. Shelhamer, and T. Darrell.用于语义分割的全卷积网络。在CVPR,2015年。20[23] I. Mikic, P. C. Cosman, G. T. Kogut, and M. M. Trivedi.在交通场景中移动阴影和物体检测。在ICPR,2000年。10[24] V. Nguyen, T. F. Y. Vicente, M. Zhao, M. Hoai, and D. Sama-ras.使用条件生成对抗网络进行阴影检测。在ICCV,2017年。1,2,6,70[25] T. Okabe, I. Sato, and Y. Sato.附加阴影编码:在未知反射和照明条件下从阴影中估计表面法线。在ICCV,2009年。10[26] A. Panagopoulos, D. Samaras, and N. Paragios.使用混合模型进行稳健的阴影和照明估计。在 CVPR 中,2009年。1,20[27] A. Panagopoulos, C. Wang, D. Samaras, and N. Paragios.通过高阶图模型进行照明估计和投影阴影检测。在 CVPR中,2011年。 10[28] L. Qu, J. Tian, S. He, Y. Tang, and R. W. Lau. Deshad-ownet: 用于去除阴影的多上下文嵌入深度网络。在 CVPR 中。 10[29] S. Ren, K. H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功