ARGAN：基于递归生成对抗网络的阴影检测和消除

9 浏览量更新于2023-10-13 收藏 5.49MB PDF 举报

阴影检测

阴影消除

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10213ARGAN：用于阴影检测和消除的注意递归生成对抗网络丁斌1、龙澄江2 *、张玲3、肖春霞1 *1武汉大学计算机科学学院，湖北武汉2Kitware Inc.，关闭NY，USA3武汉科技大学，中国湖北武汉dingbin@whu.edu.cn，chengjiang. kitware.com，zhling@wust.edu.cn，cxxiao@whu.edu.cn摘要在本文中，我们提出了一个专注的递归生成对抗网络（ARGAN）来检测和去除图像中的阴影。发生器由多个渐进步骤组成。在每个步骤中，首先利用阴影注意检测器来生成注意图，该注意图指定输入图像中的阴影区域在给定注意力图的情况下，阴影去除编码器的负残差将恢复阴影较亮的图像或甚至无阴影的图像。设计了一个鉴别器来鉴别最后一个渐进步骤中的输出此外，ARGAN适合于用半监督策略进行训练，以充分利用足够的无监督数据。在四个公开数据集上的实验表明，我们的ARGAN对简单和复杂阴影的检测都是鲁棒的，并产生更真实的阴影去除结果。它优于国家的最先进的方法，特别是在恢复阴影区域的细节。1. 介绍阴影存在于大多数图像中，它是由光照、物体材质和场景几何之间的相互作用而形成的显然，检测到的阴影可以为视觉场景理解的各种应用提供重要线索，例如场景几何描述[41]，摄像机位置[21]，对象重新照明[22]和场景照明推断[60]。同时，阴影去除能够提高一些计算机视觉和计算机图形任务的性能，例如对象检测和跟踪[37，33，36]，对象识别[5，17，31，32，18]，内在图像分解[29]。因此，需要开发一种有效的阴影检测和去除方法*本研究由龙澄江和肖春霞共同监督图1.给定具有阴影的输入图像（左），我们的目标是逐渐生成指示检测到的阴影区域（右上）的更准确的注意力图，并通过多个渐进步骤逐渐恢复更真实的阴影去除图像（右下）。以前的阴影检测和去除工作主要可以分为两类。一类是基于一些先验知识的trans-optimization方法[12，61]，例如阴影区域中的一致照明其缺点是在复杂环境下先验知识可能不满足某些阴影图像的要求，从而无法保证阴影去除效果的性能另一种是深度学习方法[44，15，53，26，65]，其有效性严重依赖于监督数据来学习鲁棒模型。然而，特别是当训练数据不足时，这种深度学习方法在阴影去除结果中经常出现颜色失真在本文中，我们提出了一种新的注意递归生成对抗网络（ARGAN）的阴影检测和去除。如图2所示，生成器以从粗到细的方式涉及用于阴影检测和去除的多个渐进步骤，并且鉴别器被设计为对来自生成器的在最后步骤处生成的在生成器中的每个渐进步骤中，阴影注意检测器用于生成注意图。然后，设计阴影去除编码器，将异常的阴影去除图像和当前检测到的阴影注意图相结合，以获得用于恢复的负残差[8]。10214使阴影更亮甚至无阴影的图像。生成器中多个渐进步骤背后的直觉是，使用逐步方法逐渐检测和去除阴影要容易得多，因此我们能够处理阴影，特别是复杂场景。检测到的阴影区域和来自前一步骤的恢复的因此，我们能够探索一个循环单元，如长期和短期记忆（LSTM）[14]，以保留有价值的详细信息，以确保检测到的阴影区域越来越准确，并且阴影消除图像越来越逼真，如图1所示。我们要强调的是，我们在生成器和鉴别器之间采用对抗训练过程[10]来生成阴影消除图像。随着时期的数量增加，两个模型都提高了它们的功能，使得将生成的阴影去除图像与真实的无阴影图像区分开变得越来越困难。因此，在一定数量的训练时期之后，我们可以利用生成器中的学习参数在每个渐进步骤生成阴影注意图和阴影去除图像。最后一步的输出是我们的最终结果。此外，我们应用半监督学习策略[47]，通过修改原始对抗损失以覆盖标记数据和未标记数据，充分利用在线可用的足够的无监督阴影图像我们可以先使用生成器，并生成一个阴影消除图像的任何输入图像的阴影，然后只需使用的鉴别器来判断是否生成的图像是真实的或不。这种处理可以提高ARGAN的泛化能力和鲁棒性。几个方面将我们的工作与以前的阴影检测和去除方法[12，61，44，15，53，26，65]区分开来。首先，我们提出的ARGAN采用对抗训练过程来优化生成器中的每个阴影注意检测器和每个阴影去除编码器其次，该生成器涉及多个渐进步骤的阴影检测和去除，在一个由粗到细的fash-离子，使它可以处理阴影与复杂的环境。第三，半监督策略，通过纳入足够的无监督阴影图像在线能够增加我们的网络的鲁棒性我们评估我们提出的ARGAN在四个公共数据集和比较与国家的最先进的方法的阴影检测和阴影去除的性能。结果清楚地表明了我们提出的模型的有效性。2. 相关工作相关工作可分为四类：阴影检测方法、阴影消除方法、生成对抗网络和注意机制。阴影检测方法涉及传统方法，使用用户交互[11，61，6]和手工制作的fea-tures [25，12，51]，以及最近的深度学习方法[23，52，40，16，26，65]用于自动阴影检测。具体而言，Khanet al. [23] 通过结合 CRF 模型中的边界和区域ConvNets检测阴影。Vicente等人[52]提出了一种用于阴影检测的语义感知补丁级CNN架构。Nguyen等人[40]使用条件生成对抗网络检测阴影。Hu等人[16]通过以方向感知的方式分析图像上下文来检测阴影。然而，这些方法仅适用于具有简单阴影的图像。它们不能在复杂的场景中检测到准确的阴影。基于梯度域操作的阴影去除方法[39，7]，照明[61，56，55，23，46]，颜色转移[45]，准确的阴影蒙版[4，11，54]和深度信息[57]已经曝光了很长时间。最近提出了三种深度学习方法来消除阴影。一个是Quet al。的多上下文嵌入网络[44]集成了用于阴影消除的高级语义上下文。一个是Huetal. s [15]使用方向感知空间上下文特征进行阴影检测和去除。另一个是Wanget al。的基于GAN的方法[53]，它联合学习阴影检测和阴影去除。与[53]不同，我们提出的AR- GAN涉及多个渐进步骤，并在生成器中使用关注的再流单元，以实现更好的阴影去除性能。生成对抗网络（GAN）[10]及其变体[60]已经被提出来处理各种图像到图像的翻译问题，例如图像超分辨率[27]，图像修复[42]，风格转移[28]和域适应/转移[30，19，50]，雨滴重新-[43]，阴影检测和去除[53]。与[43]不同，[43]仅使用相同的输入图像逐步更新注意力图以进行一步移除，我们提出的AR-GAN逐步检测阴影并以粗到细的方式逐步移除阴影。注意力机制[2]被设计为基于每个元素的指定重要性得分对序列数据进行编码，这在自然语言处理[24，49]，语音识别[3]，计算机视觉[63]，图像字幕[59]，34，9]和视觉问答（VQA）[35，1]。不同于[63]使用渐进和递归的思想来整合多级特征的多个上下文信息，我们的ARGAN以从粗到细的方式渐进和递归地更新生成器中的阴影注意力图和阴影去除图像，以便它可以处理复杂环境中的阴影。10215detREMGG发生器鉴别器阴影注意检测器阴影注意检测器阴影注意检测器ConvBN+LReluConvBN+LReluConvBN+LRelu阴影消除编码器阴影消除编码器ConvBN+LRelu输入图像ConvBN+LReluFC输出图像（O1）输出图像（O2）输出图像（ON）真/假图2.拟议的ARGAN框架概述包括两个组成部分，即：、发电机和整流器。该生成器由N个阴影注意检测器和N个阴影去除编码器组成。每个阴影注意检测器被设计成生成阴影注意图，并且每个阴影去除编码器被设计成产生阴影更亮甚至无阴影的图像。该算法由五个卷积层和一个全连接层组成，用于将输出的无阴影图像分类为真实或虚假。3. 方法如图2所示，我们提出了一个专注的递归生成对抗网络（ARGAN），以探索从阴影图像到相应的无阴影图像的映射关系。与所有生成式对抗网络一样，我们的ARGAN包含两个组件，即产生尽可能真实的无阴影图像的发生器，以及对所产生的无阴影图像是否确实是真实图像进行分类的鉴别器。在生成阶段，给定输入阴影图像I，我们迭代地更新由阴影注意检测器Gi用注意图Ai指示的检测到的阴影区域，并输出阴影较轻或甚至无阴影的图像OiConvBN+LReluConvBN+LReluConvBN+LReluConvConvConvBN+LReluBN+LReluBN+LReluLSTMLSTMLSTMConvConvConv乙状乙状乙状图3.每个阴影注意检测器由10个卷积层组成，输出通道数为64，一个LSTM层和一个卷积层。请注意，这里的每个卷积层后面都有一个批量归一化和Leaky-ReLU活动函数。步幅为1。通过阴影去除编码器Gi在第i步，由以下步骤执行：以下等式：Ai= .伊代（I）i= 1（一）一个阴影去除编码器。影子注意探测器。我们将注意力G i（O i−1，A i−1）I >1Oi=det.我REMGi（I，Ai） i= 1（Oi−1，Ai）i >1（二）机制来选择性地选择我们的网络想要观察的内容，定位输入图像的阴影，并使阴影去除编码器的注意力集中在REM在判别阶段，我们设计了一个判别器D，以半监督策略对最终输出的无阴影图像ON进行编码，以在对抗框架下处理监督数据（真实无阴影图像F）和无监督数据（F缺失）。在下面的小节中，我们将讨论生成网络，判别网络和损失函数，以及实现细节。3.1. 生成网络我们的生成网络由N个渐进步骤组成，每个步骤有一个阴影注意检测器，检测阴影区域。如图 2 所示，通过长短期记忆（LSTM）[14]的递归单元可以被公式化为我们的递归注意力网络，其中LSTM可以充分利用递归网络中前一步的中间输出，并作为先验，生成表示后续步骤中阴影区域的注意力图。如图3所示，我们的递归网络中的阴影注意力检测器被设计为具有批量归一化和Leaky ReLU激活函数（Conv+BN+LRelu）的十个卷积层，以从输入图像中提取特征。卷积LSTM单元[58]用于估计10216图4.阴影注意力检测器在前三次渐进迭代时生成的注意力图。从左到右分别是输入阴影图像、区域注意图A1、A2和A3。通过在后续步骤中组合信息并将估计结果传递到下一步骤和卷积层以生成阴影注意力图来估计阴影区域，阴影注意力图是等式1中的阴影蒙版。注意，所有N个阴影注意检测器共享相同的架构。注意力映射Ai的每个输出都是一个矩阵。这种矩阵中的每个值在从0到1的范围内，而不是二进制掩码。该值越大，该区域的关注度这表明大值的区域如图4所示，具有接近1的较大关注值的红色区域更可能是阴影区域，而关注值接近0的蓝色区域更可能被认为是非阴影区域。通过这种方式，我们的注意力地图可以通过赋予不同的注意力值来有效地区分图像中的软阴影和硬阴影。我们观察到，注意力模块最初可能不会集中在图像的所有阴影区域上。在随后的循环迭代中，注意力将不断地逐渐覆盖到目标区域。因此，它逐渐将注意力转移到所有阴影区域。图4示出了在前三个渐进步骤处生成的注意力图的一个示例。用红色标记的检测到的阴影区域阴影消除编码器。为了去除图像中的阴影，我们遵循负残差的思想[8]并设计阴影去除编码器，该编码器将具有阴影的图像和检测到的阴影区域注意力结合起来，以生成负残差，用于恢复阴影较轻或无阴影的图像。如图5所示，编码器首先使用8个Conv+BN+LRelu从图像中提取特征然后，它采用具有批归一化和LeakyReLU激活函数（Deconv+BN+LRelu）的八个去卷积层跳过连接[13]应用于卷积层和解卷积层之间，因为它不仅能够增加网络中的信道数量，而且还能够保留前层的上下文信息。在最后一个去卷积层之后，应用2Conv +BN+LRelu来提取特征图，并且应用具有S形激活的卷积层来将特征图转换成具有3Conv + BN +LRelu的对应图图5.阴影消除编码器的结构。它由8个Conv+BN+LRelu和8个Deconv+BN+LRelu组成。跳过连接在卷积层和解卷积层之间链接。之后，2个Conv+BN+LRelu、1个Conv和1个Sigmoid层生成一个对应的映射，该映射具有3个通道和与输入Oi−1相同的大小。一个乘积运算应用于-在sigmoid输出和检测到的注意力图Ai之间。然后获得负残差以恢复阴影较亮或甚至无阴影的图像O1。层输出内核步幅层输出内核步幅Conv643× 32德孔夫5124× 42Conv1283× 32德孔夫5124× 42Conv2563× 32德孔夫5124× 42Conv5123× 32德孔夫2564× 42Conv5123× 32德孔夫1284× 42Conv5123× 32德孔夫644× 42Conv5123× 32德孔夫34× 42Conv5123× 32Conv33× 31德孔夫5124× 42Conv33× 31表1.阴影消除编码器的结构。Conv表示卷积层，Deconv表示去卷积层。输出通道表示当前层中输出通道的数量。Kernel表示卷积核的大小。步幅表示卷积核的移动步长。通道和输入Oi−1的大小相同。所有卷积层和解卷积层的参数最后，我们通过乘积运算将sigmoid输出转换为具有检测到的注意力图Ai的残差信息，以获得负残差，用于从输入图像Oi−1恢复阴影较轻甚至无阴影的图像Oi。正如我们在图6中可以观察到的，随着渐进步长数的增加，输出图像中的阴影变得越来越浅，最后一个输出图像O3几乎没有阴影。3.2. 判别网络鉴别器被设计为二进制分类器，以预测来自生成器的最终输出图像0N是真的还是假的。值得一提的是，发电机和逆变器都在不断提高自己的能力。最后，它们达到了一种平衡状态，即生成器产生的图像似乎是一个真正的无阴影图像，这与我们的期望是一致的，即我们的生成器模型可以产生一个真实的无阴影图像，以便用户可以认为它是一个真正的无阴影图像。为了简单起见，我们设计了具有五个Conv+BN+LRelu和一个全连接层的层，如图所示跳过连接ConvBN+LReluConvBN+LReluConvBN+LReluDeconvBN+LReluDeconvBN+LReluDeconvBN+LReluConvBN+LRelluConvBN+LRelu转换S形10217图6.在前三次渐进迭代时，由阴影去除编码器生成的输出图像从左到右是输入其中β i是第i次迭代时MSE 损失的权重，βi=0。7N−i+1，VMS E（Ai ，M）是M和A i之间的均方误差。阴影去除编码器损失Lrem包含准确性损失和感知损失[20]。我们将损失函数定义为：阴影图像，分别输出图像O1、O2和O3。在图2中所有这六个的输出通道编号Lrem= ΣNi=1Lmse（Oi，F）+ΣNi=1Lper（Oi，F），（5）层分别为64、128、256、512和1。请注意，卷积层的内核大小为4×4，步长为2。最后一个全连接层输出输入图像的实际概率值通过计算交叉点，区分伪图像和真图像它们之间的熵损失值得注意的是，在阴影数据集中可能会遗漏一些阴影场景。为了解决这个问题，受[47]的启发，我们将半监督学习策略应用于我们的网络。在训练过程中，我们使用没有地面实况的阴影图像作为无监督数据。对于每个训练过程，我们还将无监督数据输入到生成器并生成无阴影图像。所述鉴别器辨别所生成的图像是否是真实的。半监督策略可以提高网络的泛化能力，使生成器模型更加鲁棒。此外，为了使我们的ARGAN更稳定，我们使用了最新的谱归一化[38]方法来稳定鉴别器网络的训练过程，因为谱归一化是一种简单有效的标准化方法，用于限制GAN中鉴别器的优化过程，它可以使整个Generator模型更好。3.3. 损失函数我们用来优化ARGAN的损失函数来自阴影注意力检测器，阴影去除引擎，其中Oi是阴影较轻或甚至无阴影的图像由阴影去除编码器生成的图像，F是对应的地面真实无阴影图像，Lmse（O i，F）是准确性损失，并且Lper（O i，F）是感知损失。Lmse（Oi，F）用于度量所生成的地面实况图像和无阴影图像由阴影去除编码器在第i次迭代处执行。MSE的值越小，阴影去除编码器越精确。准确度损失函数定义为：Lmse（Oi，F）= β i VMSE（Oi，F）。（六）Lper（0i，F）用于计算地面实况图像与阴影去除结果之间的全局差异。我们在ImageNet数据集上使用预训练的VGG16模型[48]损失函数定义为：Lper（Oi，F）=VMSE（VGG（Oi）， VGG（F）），（7）其中VGG（Oi）和VGG（F）是图像Oi的特征F提取自VGG16模型。具有监督学习的对抗性损失Ladv表示为：Ladv=E（I，F）[10g（D（y））+10g（1-D（G（I）]，（8）对于半监督学习，它被定义为Ladv=λE（I，F）[log（D（y））+log（1−D（G（I）]+（1−λ）E （log（1−D（G（I），（9）编码器，和编码器。总损失L模拟为：总可以是-（一）其中I是无监督数据。G是发电机。该模型的输出表示以下情况的概率：Ltotal=Ldet+Lrem+Ladv，（3）其中相应的损耗分量描述如下。每个阴影注意力检测器中的阴影注意力检测器损失L_det被定义为阴影遮片M（其通过比较阴影遮片M和阴影遮片M地面实况无阴影图像及其对应的阴影图像）和输出注意力图。在我们的生成器中，我们将阴影注意力检测器应用N次迭代，并且损失函数表示为：ΣN10218输入图像是真实图像。λ是加权超参数，并且期望值在输入-输出对的监督训练集（I，F）3.4. 实现细节我们提出的ARGAN在具有Intel（R）Xeon（R）Silver 4114 CPU@2.20GHz 192 G RAM NVIDIAGeForce GTX 1080Ti的计算机上在Tensorflow中实现。在实验中，输入的图像大小为256×256。我们设置N=3和λ=0。7 .第一次会议。minibatch大小为4。初始学习率设定为0.0002。我们使用动量优化器优化我们的发电机，并使用亚当优化器的Ldet=i=1βi VMSE（Ai，M），（4）鉴别器我们交替地训练生成网络和100，000个epoch的判别网络。10219(a)（b）（c）（d）（e）（f）（g）（h）（i）图7.阴影检测结果比较。(a)是输入图像。(b)是郭[12]的结果。(c)是Zhang [61]的结果。(d)是DSC的结果[15]。(e)是ST-CGAN的结果[53]。(f)是A+D Net的结果[26]。(g)是BDRAR的结果[65]。(h)是事实(i)是我们的ARGAN(a)（b）（c）（d）（e）（f）（g）（h）图8.阴影检测结果比较。（a）是输入图像。（b）是Guo [12]的结果（c）是Zhang [61]的结果（d）是DSC的结果(e)是ST-CGAN的结果[53]。(f)是A+D Net的结果[26]。(g)是BDRAR的结果[65]。(h)是我们的ARGAN4. 实验为了验证我们提出的ARGAN+SS的有效性，我们在四个数据集上将我们的方法与几种最先进的阴影检测和去除方法进行了比较：SBU数据集[52]、UCF数据集[64]、SRD数据集[44]和ISTD数据集[53]。4.1. 数据集和指标SBU数据集[52]包含4727对阴影和阴影掩模图像。UCF数据集[64]包含110个具有相应阴影掩模的图像。这两个数据集都没有无阴影图像，因此我们只能评估它们的检测性能。SRD数据集[44]有408对公开的阴影和无阴影图像，但没有地面真实阴影掩模，只能用于评估阴影去除。ISTD数据集[53]包含阴影图像、阴影掩模和无阴影图像的1870个图像三元组。我们可以使用这个数据集来训练我们的ARGAN，并评估阴影检测和阴影去除的性能。我们使用ISTD [53]训练数据集的阴影图像，阴影掩模和无阴影图像的1330个三元组作为监督数据进行训练，其余540个三元组用于评估。对于阴影检测，我们采用地面真实掩模和预测阴影蒙版之间的平衡错误率（BER）[40]来评估阴影检测性能。对于阴影去除，我们利用LAB颜色空间中的重新覆盖的阴影去除结果与地面实况图像之间的均方根误差（RMSE）。4.2. 阴影检测的性能比较我们比较我们的阴影检测结果与一些国家的最先进的阴影检测方法，包括两个传统的方法，即。，郭[12]和张[61]，以及四种最近的深度学习方法，即、ST-CGAN [53]、DSC [15]、A+D Net [26]和BDRAR [65]。为了进一步验证LSTM层在阴影注意力检测器中的有效性，我们删除了所有的LSTM层，并得到了一个我们称之为“AGAN”的变体为了公平比较，我们在监督学习的相同训练数据上训练所有竞争模型以及我们提出的ARGAN，并在SBU，UCF和ISTD数据集上评估阴影检测性能我们还从网上收集了1330张各种场景的图像，并将它们作为非监督数据来训练我们的半监督学习模型我们将该方法表示为结果总结在表2中。正如我们可以观察到的，（1）在所有竞争的方法中，我们的AR-GAN在所有三个数据集上的BER最好，这强烈表明我们提出的ARGAN能够检测准确的阴影区域;（2）在没有LSTM层的情况下，AGAN的性能比ARGAN差得多，这间接地验证了LSTM层在我们的阴影注意检测器中的有效性;（3）ARGAN+SS结合半监督学习，进一步提高了ARGAN的性能，有力地证明了所提模型的鲁棒性。为了进一步解释我们的方法的优越性，我们10220(a)（b）（c）（d）（e）（f）（g）（h）图9.阴影消除结果。(a)是输入图像。(b)是郭[12]的结果。(c)是Zhang [61]的结果。(d)是DeshadowNet的结果[44]。(e)是DSC的结果[15]。(f)是ST-CGAN的结果[53]。(g)是事实(h)是我们的ARGAN在图7中可视化一些结果。我们可以看到，（1）郭[12]和张[61]的传统方法不能有效地检测图像中的细长阴影;（2）在所有深度学习方法中，与ST-CGAN [53]，DSC [15]，A+D Net [26]和BDRAR [65]相比，我们提出的ARGAN能够检测更准确的阴影区域，甚至更接近我们的人类观察。图8呈现了具有更复杂场景的另外两个阴影图像。显然，我们的ARGAN在阴影检测上实现了最佳性能这可以通过以下事实来解释：具有循环单元LSTM的阴影注意检测器在多个渐进步骤中保持从粗略到精细逐渐更新检测结果。年SBUUCFISTD郭201125.0328.3227.16张20157.139.218.56DSC20185.318.732.40ST-CGAN201813.5617.693.84A+D网络20187.6711.052.97BDRAR20186.619.452.20阿干20197.248.674.23Argan20193.093.762.01ARGAN+SS20192.563.031.75表2.阴影检测与BER度量的定量比较结果最好和第二好的结果分别用红色和蓝色标记。.4.3. 阴影消除的性能比较我们比较我们提出的ARGAN与国家的最先进的方法，包括传统的方法，即。，Guo[12]和Zhang [61]以及最近的深度学习方法，即. [44]，[45]，[46]，[47]，[48]，[49]，我们还比较了我们的模型的两个变体，即。、AGAN和ARGAN+SS。我们在SRD数据集和ISTD数据集上评估了阴影去除的性能。结果总结于表3中。正如我们所看到的，（1）我们提出的ARGAN在两个数据集上的阴影区域和整个图像中都实现了最佳RMSE，这表明ARGAN有希望去除阴影并恢复更真实的无阴影图像;（2）没有LSTM层，AGAN无法像ARGAN一样定性地恢复无阴影图像它可以可以通过LSTM层影响检测到的阴影注意力图的事实来解释，这会影响最终恢复的无阴影图像的质量;（3）ARGAN+SS算法无论在阴影区、非阴影区还是在整幅图像上都能不断提高ARGAN算法的性能。再次，这清楚地表明，我们提出的ARGAN善于在半监督学习中利用足够的无监督阴影图像，以提高生成器的质量，并保证阴影检测和无阴影图像恢复的性能。在图9中，我们继续分析与可视化的性能比较。在这些输入图像中，非阴影区域中的一些区域颜色较暗。正如我们可以观察到的，Guo [12]，Zhang [61]，DeshadowNet [44]，ST-CGAN [53]，DSC [15]有时会将具有深色的区域视为阴影区域，并恢复这些黑暗区域中的照明然而，照明增强改变了非阴影区域的颜色，这是不期望的。相比之下，我们提出的ARGAN在整个图像中的颜色信息的充分帐户，可以产生更自然和逼真的阴影去除结果。为了进一步验证我们的ARGAN的鲁棒性，我们从在线复杂场景中选择了7个具有阴影的图像，并应用所有竞争方法来生成无阴影图像，如图10所示。显然，我们的ARGAN是强大的处理复杂场景的阴影。恢复的无阴影图像中原始阴影区域的光照与周围环境一致，阴影区域的纹理细节得到很好的保留。4.4. 讨论为了进一步探索N的值如何影响最终的性能，我们采取实验N=1，2，3和4，以产生一个阴影的图像由我们的ARGAN。在ISTD上，阴影检测的BER值分别为2.22、2.08、2.01和2.01;对整幅图像进行阴影去除的RMSE值分别为7.35、6.97、6.68和6.67。我们观察到N=3是性能和复杂性之间的一个很好的折衷，如图11所示此外，我们还在图12中可视化了AGAN、ARGAN和ARGAN+SS的阴影去除我们10221(a)（b）（c）（d）（e）（f）（g）图10.阴影消除结果。(a)是输入图像。(b)是郭[12]的结果。(c)是Zhang [61]的结果。(d)是DeshadowNet的结果[44]。(e)是DSC的结果[15]。(f)是ST-CGAN的结果[53]。(g)是我们的ARGAN(a)（b）（c）（d）（e）图11.阴影去除导致不同值的递归N(a)是输入图像。(b)，（c），（d）和（e）分别是N取1，2，3，4的结果。图12.消融分析的可视化结果。(a)是输入图像。(b)是在不使用LSTM的情况下去除阴影的结果。(c)是在不使用无监督数据的情况下消除阴影的结果（d）是我们最终的阴影去除结果。可以观察到LSTM层对于无阴影图像恢复确实很重要，并且使用半监督策略，我们的AR- GAN+SS能够处理复杂场景的阴影图像。5. 结论在本文中，我们提出了一个强大的注意力回流生成对抗网络的阴影检测和消除。该生成器既可以生成阴影注意图，又可以恢复阴影去除后的图像表3.用RMSE度量去除阴影的定量比较结果最好和第二好的结果分别用红色和蓝色标记。在该表中，S表示阴影区域，N表示非阴影区域，A表示整个图像。包括从粗到细的多个渐进步骤我们的模型能够处理复杂场景中的阴影，并且非常灵活地将足够的未监督阴影图像用于训练强大的模型。在未来，我们计划扩展我们的方法来解决复杂的视频阴影检测和去除问题[62]。确认本课题得到了国家重点研究发展计划（ 2017YFB1002600 ）、国家自然科学基金（ No.61672390），以及湖北省重点技术创新项目（2018AAA062）。通讯作者是肖春霞。SRDISTDSN一SN一郭29.896.4712.6018.957.469.3张9.566.97.249.777.128.16DeshadowNet17.966.538.4712.767.197.83ST-CGAN18.646.378.2310.316.927.46DSC11.316.727.839.226.507.10阿干14.685.947.6511.796.337.57Argan7.244.715.747.215.836.68ARGAN+SS6.354.465.316.655.415.8910222引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，第3卷，第6页，2018年。[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。[3] JanKChorowski ， DzmitryBahdanau ， DmitriySerdyuk，Kyunghyun Cho，and Yoshua Bengio.用于语音识别的基于注意力的InNeurIPS，2015.[4] Yung-Yu Chuang ， Dan B Goldman ， Brian Curless ，David H Salesin ， and Richard Szeliski. 阴影铺垫和合成。在ACM Transactions on Graphics（TOG），第22卷，第494-500页[5] 丽塔·库奇亚拉，科斯坦蒂诺·格拉纳，马西莫·皮卡尔迪，安德里亚·普拉蒂和斯特凡诺·西罗蒂.利用HSV颜色信息改进运动目标检测中的阴影抑制。智能交通系统，2002年。[6] 阿贝尔·伊莱和海尔·奥尔·哈吉特。阴影消除使用强度表面和纹理锚点 . IEEE Transactions on Pattern AnalysisMachine Intelligence（T-PAMI），33（6）：1202[7] 刘锋和迈克尔·格雷彻。纹理一致的阴影消除。ECCV，2008年。[8] Xueyang Fu，Jiabin Huang，Delu Zeng，Yue Huang，Xinghao Ding，and John Paisley.通过深度细节网络从单个图像中去除雨水。在CVPR，2017年。[9] Lianli Gao， Xiangpeng Li ，Jingkuan Song，and HengTao Shen.具有自适应注意力的视觉字幕分层最小二乘模型。 IEEE Transactions on Pattern Analysis MachineIntelligence（T-PAMI），2019年。[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。[11] Maciej Gryka、Michael Terry和Gabriel J.布罗斯托学习如何去除柔和的阴影。ACM Transactions on Graphics（TOG），34（5）：1[12] Ruiqi Guo，Qieyun Dai，and Derek Hoiem.使用成对区域的单图像阴影检测和去除。CVPR，2011。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[14] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation，9（8）：1735[15] 胡晓伟，傅志荣，朱磊，秦静，和Pheng-Ann Heng。用于阴影检测和去除的方向感知空间上下文特征。arXiv预印本arXiv，2018年。[16] Xiaowei Hu ， Lei Zhu ，Chi-Wing Fu ，Jing Qin ， andPheng-Ann Heng.用于阴影检测的方向感知空间上下文特征。2018年。[17] 刚华，龙澄江，杨明，高彦用于识别的核机器集成的协同主动学习。InICCV，2013.[18] 刚华，龙澄江，杨明，高彦。来自人群的协作主动视觉识别：分布式集成方法。IEEE transactions on patternanalysis and machine intelligence，40（3）：582[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。[20] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。[21] Imran N Junejo和Hassan Foroosh。利用阴影轨迹估计静止摄像机的时空位置。在ECCV会议记录中，2008年。[22] Kevin Karsch、Kalyan Sunkavalli、Sunil Hadap、NathanCarr、Hailin Jin、Rafael Fonte、Michael Sittig和DavidForsyth 。三维物体合成的自动场景推断。 ACMTransactions on Graphics（TOG），33（3）：1[23] Salman H Khan ， Mohammed Bennamoun ， FerdousSohel，and Roberto Togneri.自动阴影检测和removal从一个单一的形象. IEEE Transactions on Pattern AnalysisMachine Intelligence（T-PAMI），（3）：431[24] Douwe Kiela，Changhan Wang，and Kyunhyun Cho.用于改进句子表示的动态元嵌入。在自然语言处理经验方法会议上，2018年。[25] 让·弗兰作者声明：A. Efros和Srinivasa G.纳拉希姆汉户外消费者照片中地面阴影的检测。ECCV，2010年。[26] Hieu Le，Yago Vicente，F Tomas，Vu Nguyen，MinhHoai，and Dimitris Samaras. A+ D网络：训练一个具有对抗性阴影衰减的阴影检测器。在ECCV，2018。[27] ChristianLedig ， LucasTheis ， FerencHusza'r ，JoseCaballero， AndrewCunningham ， AlejandroAcosta ， Andrew Aitken ， Alykhan Tejani ， JohannesTotz，Zehan Wang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。arXiv预印本，2017年。[28] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成在ECCV，2016年。[29] 李正奇和诺亚·斯内弗利。从观察世界中学习内在的意象解构.在CVPR，2018年。[30] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。NeurIPS，2017。[31] 澄江龙和刚华。多类别多注解者主动学习与强健高斯过程视觉辨识。在ICCV，2015年。[32] 澄江龙和刚华。跨领域视觉识别的相关高斯在CVPR，2017年。[33] Chengjiang Long ， Xiaoyu Wang ， Gang Hua ， MingYang，Yuanqing Lin.精确的目标检测与位置松弛和regionlet重新定位。InACCV，2014.[34] Jiasen Lu ，Caiming Xiong，Devi Parikh，and RichardSocher. 知道什么时候看：自适应注意力通过视觉sentinel图像字幕。在CVPR，第6卷，第2页，2017年。[35] Jiasen Lu，Jianwei Yang，Dhruv Batra，and Devi Parikh.用于视觉问答的分层问题图像共注意。InNeurIPS，2016.10223[36] 罗文汉、孙鹏、钟方伟、刘伟、张通、

下载后可阅读完整内容，剩余1页未读，立即下载