CANet:上下文感知网络用于去除阴影

201 浏览量更新于2023-10-15 收藏 21.38MB PDF 举报

去除阴影

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

prove the visual effects and avoid the performance drop onthe above-mentioned computer vision tasks. However, dueto the complex interactions of geometry and illumination,shadow removal remains a challenging problem.Current shadow removal methods can be mainly dividedinto two categories: physical-based methods [8, 7, 12, 19,29, 38, 43] and learning-based methods [31, 35, 15, 36,5, 42, 44]. Compared to physical-based methods, whichapply a physical model to analyze each pixel’s intensi-ties, learning-based methods analyze the image in featuremaps. Recently, learning-based methods with proper modelhave presented potential advantages [42, 15, 30]. However,these methods mainly focus on increasing the receptive ﬁeldof the model without considering other particular context-sensitive shadow-aware components, which may easily ig-nore the contextual matching information hidden in images.In this paper, we propose a novel two-stage context-aware network CANet for shadow removal in an end-to-end manner. As shown in Figure 1, our CANet integratesa contextual patch matching (CPM) module and a contex-tual feature transfer (CFT) mechanism at Stage-I and takesStage-II as a reﬁnement step for shadow removal. In partic-ular, the CPM module is designed to search for the corre-sponding potential relationships between shadow and non-shadow patches, which demonstrates the contextual map-ping between shadow and non-shadow regions. The CFTmechanism is utilized to transfer the contextual feature atdifferent scales from non-shadow regions to shadow regionsbased on the output patch matching pairs from the CPMmodule and the extracted contextual features.Our CPM module is designed as a dual-head structurenetwork with the shared patch feature extractor to predictthe degree of context matching between two patches fromthe image, as well as determine the type of the patch pairwithout a shadow mask. We only focus on contextual in-formation transfer from non-shadow regions to shadow re-gions. Therefore we can deﬁne three types of patch pairs,i.e., (1) both from shadow or non-shadow regions, (2) theﬁrst one from the shadow region and the second one from47430CANet: 一种上下文感知网络用于去除阴影0Zipei Chen 1 , 龙成江 2* , 张玲 3 , 肖春霞 1 � †01 武汉大学计算机学院，中国湖北武汉 2京东金融美国公司，美国加利福尼亚州山景城 3武汉科技大学，中国湖北武汉0czpp19@whu.edu.cn, cjfykx@gmail.com, zhling@wust.edu.cn, cxxiao@whu.edu.cn0摘要0本文中，我们提出了一种新颖的两阶段上下文感知网络CANet，用于去除阴影，在嵌入特征空间中将非阴影区域的上下文信息传递到阴影区域。在第一阶段，我们提出了一个上下文补丁匹配（CPM）模块，用于生成一组潜在的阴影和非阴影补丁匹配对。结合阴影和非阴影区域之间的潜在上下文关系，我们设计了一个精心设计的上下文特征传递（CFT）机制，可以在不同尺度上将非阴影区域的上下文信息传递到阴影区域。通过重建的特征图，我们分别在L和A/B通道上去除阴影。在第二阶段，我们使用编码器-解码器来改进当前结果并生成最终的阴影去除结果。我们在两个基准数据集和一些具有复杂场景的真实世界阴影图像上评估了我们提出的CANet。广泛的实验结果强烈证明了我们提出的CANet的有效性，并展示了优于现有技术的性能。我们的源代码可在https://github.com/Zipei-Chen/CANet找到。01. 引言0阴影是当光线部分或完全被阻挡时出现的自然现象。作为计算机视觉领域的一个基本挑战，图像或视频中的阴影存在不可避免地降低了一般应用任务（如固有图像分解[21，10]，视觉识别[25，17，24，14]，物体检测和跟踪[28，1，2]，轨迹预测[27，33]，单幅图像超分辨率[40，39]和图像字幕[6]）的准确性和有效性。因此，去除阴影对于改善视觉效果并避免上述计算机视觉任务的性能下降是重要且必要的。然而，由于几何和照明的复杂相互作用，阴影去除仍然是一个具有挑战性的问题。当前的阴影去除方法主要可以分为两类：基于物理的方法[8，7，12，19，29，38，43]和基于学习的方法[31，35，15，36，5，42，44]。与基于物理的方法相比，基于学习的方法分析特征图中的图像。最近，具有适当模型的基于学习的方法呈现出潜在优势[42，15，30]。然而，这些方法主要关注增加模型的感受野，而忽视了图像中隐藏的其他特定上下文敏感的阴影感知组件的考虑，这可能会容易忽略图像中隐藏的上下文匹配信息。在本文中，我们提出了一种新颖的两阶段上下文感知网络CANet，以端到端的方式进行阴影去除。如图1所示，我们的CANet在第一阶段集成了一个上下文补丁匹配（CPM）模块和一个上下文特征传递（CFT）机制，并将第二阶段作为阴影去除的改进步骤。特别地，CPM模块旨在搜索阴影和非阴影补丁之间的相应潜在关系，从而展示阴影和非阴影区域之间的上下文映射。CFT机制利用来自CPM模块的输出补丁匹配对和提取的上下文特征，将不同尺度上的上下文特征从非阴影区域传递到阴影区域。我们的CPM模块被设计为一个具有共享补丁特征提取器的双头结构网络，用于预测图像中两个补丁之间的上下文匹配程度，并确定没有阴影掩码的补丁对的类型。我们只关注从非阴影区域到阴影区域的上下文信息传递。因此，我们可以定义三种类型的补丁对，即（1）都来自阴影或非阴影区域，（2）第一个来自阴影区域，第二个来自0* 这项工作由龙成江和肖春霞共同指导。† 通讯作者。47440非阴影区域，（3）第一个来自非阴影区域，第二个来自阴影区域。通过这些预测类型，我们可以过滤掉大多数无关的补丁对。与传统的补丁匹配方法不同，我们的CPM是基于学习的，通过数据驱动的方式适应处理复杂场景，并且可以通过对亮度进行平均来有效避免由于阴影造成的匹配错误。此外，我们的类型分类头可以用于过滤掉大多数来自相同阴影或非阴影区域的补丁对，并且只关注具有高相关性得分的其他补丁对。我们使用大量自采集的训练数据来训练CPM模块，并将学习到的CPM模块应用于获取一组补丁匹配对。然后，受到信息传递的思想的启发[32]，我们引入了一个上下文特征传递（CFT）机制，将不同尺度的非阴影补丁的上下文特征传递到阴影补丁，从而产生一系列不包含阴影信息的特征图。与现有的用于阴影去除任务的信息传递策略[38, 43,41]不同，这些策略为每个阴影补丁/子区域搜索一个最相关的非阴影补丁/子区域，我们的CFT机制通过应用多个补丁匹配对来执行特征传递，根据两个补丁之间的相似性。通过重建无阴影的特征图，我们在第一阶段分别在L通道和A/B通道中去除阴影。最后，为了确保我们的结果的鲁棒性，我们使用恢复的L和A/B通道图像以及阴影图像作为输入，使用编码器-解码器在第二阶段预测最终的阴影去除图像。总之，我们的主要贡献有三个方面：0•我们提出了一个两阶段的上下文感知网络CANet，以端到端的方式进行阴影去除，在嵌入特征空间中将非阴影区域的上下文信息传递到阴影区域。0•我们设计和训练了一个上下文补丁匹配（CPM）模块，用于获取图像中阴影区域和非阴影区域之间的潜在上下文关系，该模块在匹配过程中自动区分阴影补丁和非阴影补丁。0•所提出的上下文特征传递（CFT）机制将从非阴影区域提取的上下文特征以不同的尺度传递到阴影区域，去除与阴影相关的特征，产生优秀的阴影去除结果。0定量和定性实验证明了我们提出的方法的有效性和效率0CANet以及其在生成逼真的去除阴影图像方面的卓越性能。02. 相关工作0基于物理的阴影去除方法。基于物理的阴影去除方法是传统的方法，通常使用一些先验知识构建物理模型来恢复阴影区域的照明[19, 12, 7, 38, 19,29]。Finlayson等人提出了一系列基于梯度一致性的阴影去除方法[8,7]，该方法基于图像的梯度信息在阴影去除后保持不变的先验。由于照明的变化，这些方法可能会出现明显的阴影边界伪影。另一种策略是信息传递，它将颜色或光线等信息从一个图像/区域传递到另一个图像/区域。它在图像处理任务中被广泛使用。Wen等人提出了一种用户交互的多重局部颜色转移方法[37]，为每个像素设置了适当的梯度引导颜色转移函数。Zhang等人将颜色转移技术和梯度融合方法结合起来，改变图像的照明效果[45]。Shor等人建立了一个阴影区域和非阴影区域之间的线性映射模型[34]。Xiao等人使用子区域匹配照明转移的方法进行阴影去除任务[38]。Zhang等人提出了一种基于照明转移的局部到全局阴影去除方法[43]。尽管使用信息传递的这些方法可以产生令人满意的阴影去除结果，但这些方法的有效性取决于纹理匹配的准确性。基于学习的阴影去除方法。与传统的基于物理的方法不同，基于学习的方法倾向于学习用于阴影去除的高级上下文特征[15,41, 20,42]。Qu等人提出了一种多上下文嵌入网络DeshadowNet，以整合不同层次的信息进行阴影去除[31]。Wang等人分析了阴影检测和去除之间的关系，然后提出了一种堆叠条件生成对抗网络（ST-CGAN）模型，用于进行阴影检测和去除[35]。Hu等人使用方向感知的空间上下文注意特征进行阴影检测和去除[15]。Zhang等人探索了残差和逆照明之间的关系，提出了一种通用的RIS-GAN用于阴影去除[42]。Hieu等人将阴影图像视为无阴影图像、阴影参数和阴影遮罩的组合，并使用神经网络预测它们以去除阴影[20]。Liu等人通过在非配对数据上进行训练，提出了一种LG-ShadowNet用于阴影去除[23]。Lin等人提出了一种用于文档阴影去除的BEDSR-Net。BEDSR-Net专门设计用于文档图像阴影去除。47450图1. 我们提出的CANet的概述，它需要两个阶段来进行阴影去除。在第一阶段，通过预训练的DenseNet[18]首先提取上下文特征；同时，设计的上下文补丁匹配模块（CPM）（见图2）用于获取一组上下文匹配对；然后，应用上下文特征转移机制（见图3）将非阴影补丁的上下文信息转移到阴影补丁上，以恢复阴影去除图像的L和A/B通道。在第二阶段，我们将恢复的L和A/B通道信息与输入的阴影图像进行融合，并将它们输入到DenseUNet中生成最终的阴影去除结果。0阴影去除方法的一个主要问题是缺乏对其他类型阴影图像的可扩展性。Cun等人[3]设计了一个名为SMGAN的网络用于阴影去除，可以产生无幽灵的阴影去除图像。尽管这些现有方法取得了一些进展，但它们只关注于增加模型的感受野，忽略了图像中配对匹配信息。相比之下，我们提出的CANet旨在探索阴影和非阴影区域之间的潜在上下文信息。03. 方法0直观地说，具有相似纹理的两个补丁在相同无阴影环境下应具有相似的照明和上下文。基于此，我们探索了上下文感知信息传递的思想来进行阴影去除任务。图1展示了我们提出的两阶段上下文感知网络（CANet）用于阴影去除的示意图。在第一阶段，给定一个阴影图像，通过从非阴影补丁中传递上下文信息，恢复阴影去除图像的L和A/B通道，依赖于获取的上下文补丁匹配信息。在第二阶段，设计了一个DenseUNet，将恢复的L和A/B通道信息与输入的阴影图像进行融合，生成高质量的阴影去除图像。在接下来的小节中，我们将介绍我们的上下文补丁匹配模块、上下文特征转移机制以及用于阴影去除的两阶段CANet。03.1. 上下文补丁匹配模块0如图1所示，CPM模块旨在生成一组有序的非阴影补丁匹配对。0阴影和阴影补丁与预测相关性得分一起。0图2.我们的双头上下文补丁匹配模块的架构。我们首先通过亮度平均和均值滤波器操作计算无阴影图像。然后，我们从阴影图像和无阴影图像中提取32×32的补丁，并将它们输入到共享的补丁描述符中提取深度学习特征。最后，提取的特征被送入两个头部，一个用于预测输入补丁对的类型（表示为-1、0或1），另一个用于预测它们之间的相关程度，作为0到1范围内的连续值来衡量它们的相关性。0为了避免阴影引起的匹配错误，给定一个3�i=1tilog(pi)(4)47460图3.我们如何使用上下文特征转移机制根据捕获的上下文匹配对来传递上下文信息的示意图。注意，我们使用高斯采样从非阴影补丁中采样上下文信息，并将其自适应地集成到查询阴影补丁中。0输入阴影图像时，我们首先应用一个大小为3的均值滤波器，通过对阴影图像上的亮度进行平均来得到一个无阴影的图像。特别地，无阴影图像的计算公式如下：0I i,j = I i,j -0�0(i,j) 0N + I avg (1)0其中Ii,j表示像素(i,j)处的亮度值，P表示以像素(i,j)为中心的3×3补丁，N是补丁中的像素总数，Iavg是图像的全局平均亮度值。我们经验性地观察到，无阴影图像作为我们的CPM模块的输入源，对于消除阴影的影响并区分阴影补丁和非阴影补丁非常有价值。更多细节请参见补充材料。然后，我们从输入的阴影图像和无阴影图像中提取32×32的补丁，将它们连接起来并输入到我们的双头CPM模块中，如图2所示。与传统方法不同，传统方法使用手工设计的局部描述符（如SIFT[26]）表示图像补丁，并应用欧氏距离来衡量它们之间的相似性，而我们的CPM是基于学习的，因此可以通过数据驱动的方式自适应处理复杂场景。我们充分利用具有残差块的卷积层作为共享特征提取器，提取用于双头回归任务和分类任务的深度学习特征。具体而言，一个头部是相关性回归器，输出0到1范围内的连续值作为相关程度，另一个头部是类型分类器，预测补丁对的类型，其中类型可以是-1、0或1。值得注意的是，我们关注每个输出补丁匹配对的顺序，特别是当两个补丁不来自同一区域（阴影或非阴影）时。具体而言，0表示两个补丁来自相同的阴影或非阴影区域，-1表示补丁对以非阴影补丁开始，然后是阴影补丁，而1表示补丁对以0阴影块，然后是非阴影块。请注意，我们使用-1和1来区分阴影块和非阴影块，因为我们只将上下文信息从非阴影区域转移到阴影区域。通过这样做，我们的类型分类器头可以用来过滤掉大多数来自相同阴影或非阴影区域的补丁对，并只关注具有高相关度分数的其他补丁对。为了学习一个稳定和鲁棒的 CPM模块，我们充分利用现有的阴影基准数据集来收集大量的训练数据集。我们从阴影图像中随机采样32×32的补丁。请注意，我们使用余弦相似度作为相应无阴影图像上阴影和非阴影补丁之间的度量，生成相关度回归的真实值。对于余弦相似度大于0.95的补丁，我们将相关度 s gt的真实值设置为1，对于小于0.6的补丁，我们将相关度 s gt的真实值设置为0。对于真实类型 t，我们利用真实阴影掩码确定任何补丁对的真实类型为-1、0或1。我们优化整体损失 L CP M 来训练 CPM模块。它包含回归损失 L reg 和分类损失 L cls ，即：0L CP M = L reg + L cls (2)0回归损失 L reg 用于优化 CPM 模块的相关度回归器，即：0L reg = || s out − s gt || 2 (3)0其中 s gt 是输入对的相关度标签，s out是相关度回归器的输出。分类损失 L cls用于优化类型分类器，定义为交叉熵：0L cls = −0其中 t i 表示补丁对的真实匹配类型，p i是我们类型分类器的输出。F ′x,y =nnk�i=1wiki=1 wiF ′i,(6)LCANet = λ1Lrem + λ2Lper + λ3Lgrad(7)Lrem = ∥Igt − Iout∥2 .(8)474703.2. 上下文特征转移机制0我们上下文特征转移机制的目标是将非阴影区域的上下文特征转移到阴影区域，从而得到没有阴影信息的特征图。通常，直接将非阴影区域的特征替换为阴影区域可能会导致次优结果，如不连续性、伪影等。因此，我们引入了上下文特征转移（CFT）机制，在特征空间中执行信息转移。我们的上下文特征转移模型的过程如图3所示。给定输入特征图中的一个阴影块，我们首先从生成的匹配对集合中检索匹配的非阴影块。然后，对于每个阴影块，我们使用高斯采样来执行使用匹配的非阴影块进行上下文特征转移。最后，我们根据每对匹配对之间的相关度整合前 k 个转移的特征块。设 n为高斯采样的核大小，k为特征转移次数。高斯采样可以写成：0ϕ (∆ x, ∆ y ) � n ∆ x =0 � n ∆ y =0 ϕ (∆ x, ∆ y ) F x +∆ x,y +∆y0(5) 其中 F ′ x,y 和 F x,y 分别是位置 ( x, y )处采样后和采样前的特征图。ϕ (∆ x, ∆ y ) 是位置 ( x + ∆ x,y + ∆ y ) 处的高斯权重02 σ 2 � , 其中 σ是高斯分布的方差。为了更好地整合转移后的特征，我们根据每对匹配对的相关度自适应地整合 k个采样结果。重建的无阴影特征 F 可以写成：0F =0其中 F ′ i 是第 i 个采样结果，w i是匹配对之间的相关度。由于高斯采样具有更大的感受野，并在采样时考虑周围信息，上下文特征转移机制中的高斯采样可以帮助更好地转移上下文信息并获得良好的结果。03.3. 两阶段策略的阴影去除0我们的阴影去除网络CANet采用了两阶段策略。在第一阶段，我们首先使用一个在ImageNet[ 4]上预训练的DenseNet[ 18]作为特征提取器来提取上下文特征。然后，将提取的上下文特征作为输入，应用我们的上下文特征转移机制，在不同尺度上将特征从非阴影区域转移到阴影区域。通过一系列的0通过上采样和残差块，我们可以分别在 L 和 A/B通道上去除阴影。从图 4 的统计分析中可以看出，L 通道比A/B通道更敏感，能够更好地突出阴影区域与非阴影区域之间的差异。分离处理可以避免对 A 和 B 通道的过度处理以及对 L通道的不足处理，使其在上下文特征转换模型中更有利于特征转移。0图 4. 在ISTD数据集[ 35 ]（第一行）和SRD数据集[ 31]（第二行）上，LAB颜色空间中每个通道的输入阴影图像与真实无阴影图像之间的差异。0请注意，恢复的 L 和 A/B通道是使用转换操作的阴影去除结果，由于CPM模块中的不准确匹配，可能包含不理想的区域。因此，我们转向第二阶段，为阴影去除结果生成一个精细的阴影去除结果，该阶段以恢复的 L 和 A/B通道图像以及阴影图像作为输入，使用DenseUNet，一种编码器-解码器结构，来预测最终的阴影去除图像。为了得到一个稳健的参数模型进行阴影去除，我们使用总损失 LCANet 来训练我们的CANet。它由去除损失 L rem，感知损失 L per 和梯度损失 L grad 组成，即0其中 λ 1 ， λ 2 ， λ 3 是超参数。本文中，我们设置 λ 1 =1 ， λ 2 = 25 ， λ 3 = 5 。去除损失 L rem是我们的CANet生成的两个阶段的阴影去除结果 I out 1 ，I out 2 与相应的真实值 I gt 之间的视觉一致性损失，即0感知损失 L per是感知一致性损失，旨在保持图像的结构，定义为：L per= ∥ V GG ( I gt ) − V GG ( I out ) ∥ 1 , (9)Lgrad = ∥∇Igt − ∇Iout∥1 ,(10)MethodISTDSRDSNASNAGuo [12]18.957.469.329.896.4712.60Zhang [43]13.777.178.169.506.907.24DeshadowNet [31]12.767.197.8317.966.538.47ST-CGAN [35]10.336.937.4712.656.377.83Mask-shadowGAN [16]10.357.037.6110.326.837.32ARGAN [5]9.216.276.638.136.056.23DSC [15]9.226.396.678.226.016.21RIS-GAN [15]9.156.316.628.096.026.17CANet8.866.076.157.825.885.9847480其中 V GG ( ∙ ) 是来自VGG19模型的特征提取器。梯度损失L grad 用于鼓励结果的平滑性，定义为：0其中 � 是图像在像素级别的梯度。04. 实验0基准数据集。我们在两个阴影去除基准数据集上进行各种实验，以验证我们的CANet的有效性。一个是ISTD数据集[ 35]，包括1330个训练三元组（阴影图像、阴影掩码和无阴影图像）和540个测试三元组。另一个是SRD数据集[ 31]，包括2680个训练对（阴影图像和无阴影图像）和408个测试对。实现细节。我们的方法使用PyTorch在两个GPU（NVIDIA GeForce2080Ti）上实现，图像的输入尺寸为400×400，小批量大小为2。我们经验性地使用Adam优化器来优化我们的网络。在我们的实验中，我们将第一动量值、第二动量值和权重衰减分别设置为0.9、0.999和5×10−4。我们对CPM模块进行30个时期的训练，对CANet进行50个时期的训练。初始学习率设置为0.0001。此外，我们还在华为MindSpore平台上部分验证了我们的方法。与[ 13]类似，我们在两个阶段运行我们的CPM模块，以避免对同一块区域进行重复操作。我们首先提取所有块的特征，然后将它们分别输入到我们的CPM模块的两个头部，以生成输入块对的匹配信息。此外，为了在效率和准确性之间取得良好的平衡，我们在实验中将 k 设置为3，n 设置为5。04.1. 与最先进技术的比较0我们将我们的CANet与八种最先进的方法进行比较，即Guo[ 12 ]，Zhang [ 43 ]，DeshadowNet [ 31 ]，ST-CGAN [35 ]，Mask-shadowGAN [ 16 ]，ARGAN [ 5 ]，DSC [ 15]和RIS-GAN [ 42]。在这些竞争方法中，前两种是传统方法，而后六种是基于学习的方法。需要注意的是，所有这些基于学习的方法都试图通过具有更大感受野的深度学习模型来探索上下文信息，并使用这些信息来去除图像中的阴影。特别是，DSC [ 15]利用方向感知的空间RNN，DeshadowNet [ 31]使用多上下文模型来捕获空间上下文信息。为了公平比较，我们使用相同的训练数据和相同的输入尺寸（即400×400）来训练所有基于学习的方法。我们在LAB颜色空间中计算生成图像与阴影去除图像之间的均方根误差（RMSE）。0用于定量评估阴影去除性能的阴影去除图像和无阴影地面真实图像。定量评估。我们总结了SRD和ISTD的测试数据上的定量结果，结果见表1。我们可以看到，所有竞争的基于学习的方法都比我们提出的CANet表现更差。这可以解释为这些基线方法忽略了阴影和非阴影区域之间的潜在相关性。因此，这些方法在处理一些复杂的阴影场景时可能会失败，特别是当最相关的非阴影区域不靠近阴影区域时。相反，通过明确捕获全局上有用的潜在上下文匹配信息，我们的CANet可以处理复杂的情况，从而显著改善阴影去除的结果。表1报告了与最先进方法的定量评估结果的比较，我们可以看到我们的CANet在两个数据集上的阴影区域、非阴影区域和整个图像上都优于其他最先进的方法，这清楚地证明了我们的CANet的有效性。0表1.ISTD和SRD数据集上我们的方法与最近方法之间阴影去除的定量比较结果，以RMSE为单位（其中S、N、A分别代表阴影区域、非阴影区域和整个图像）。0定性评估。我们还在图5中提供了视觉比较结果。对于传统方法，由于局部信息传递，Guo [ 12]无法完全去除阴影。其结果包含一些伪影，如图5（b）所示。Zhang [ 43]在阴影边界处也无法很好地处理照明变化，如图5（c）所示。这是因为在像素级别处理时忽略了图像的上下文信息，导致照亮块的匹配不准确或错误。相反，通过精心设计的CPM模块和CFT机制，我们的CANet可以更好地恢复与周围环境一致的照明，并解决存在伪影的边界问题，生成更逼真的阴影去除结果。关于基于学习的方法，尽管它们可以很好地处理一些简单的场景，但对于具有复杂场景的阴影图像仍然不够令人满意，导致一些不令人愉快的阴影去除结果。(a)(b)47490(c)0(d)0(e)0(f)0(g)0(h)0(i)0图5.阴影去除结果。从左到右依次为：(a)输入图像；Guo的阴影去除结果(b)、Zhang的阴影去除结果(c)、ST-CGAN的阴影去除结果(d)、DSC的阴影去除结果(e)、ARGAN的阴影去除结果(f)、RIS-GAN的阴影去除结果(g)、我们的CANet的阴影去除结果(h)以及相应的无阴影真实图像(i)。0(a)0(b)0(c)0(d)0(e)0(f)0(g)0(h)0图6. 阴影去除结果。从左到右依次为：(a)输入图像；我们的阴影去除结果的(b)“CANet w/ TM”、(c)“CANet w/ MNet”、(d)“CANetw/o CFT”、(e)“CANet w/ DRCF”、(f)DenseUNet、(g)我们提出的CANet，以及(h)相应的无阴影真实图像。0尽管ST-CGAN去除了大部分阴影，但其结果仍然包含一些伪影，如图5(d)所示。从图5(e-g)可以看出，DSC严重扭曲了阴影周围的颜色，而ARGAN和RIS-GAN在过度去除阴影方面有一定程度的问题。造成这种糟糕结果的主要原因是这些方法忽略了图像中的潜在相关性，没有考虑不同颜色通道之间的差异。相比之下，我们提出的CANet捕捉了图像中阴影区域和非阴影区域之间的潜在相关性，因此可以有效避免结果中的颜色失真。如图5(h)所示，我们的CANet方法产生了比竞争方法更真实和有希望的结果。04.2. 割除研究0为了进一步验证我们提出的这些组件的有效性，我们设计了一系列变体。首先，我们用两种补丁匹配方法替换了我们的CPM模块。一种是“传统匹配”，它使用传统的手工制作描述符和欧氏距离来捕捉上下文匹配集，另一种是MatchNet[13]。我们将这两个变体分别称为“CANet w/TM”和“CANet w/MNet”。然后，我们设计了两个变体来验证提出的CFT机制的有效性。一个是完全去除上下文特征传递机制，另一个是替换上下文特征传递机制。0在特征传递过程中，我们直接使用了上下文特征，而没有考虑CFT中的高斯采样。我们将这两个新变体分别称为“CANet w/o CFT”和“CANet w/DRCF”。最后但并非最不重要的是，我们还使用DenseUNet直接进行了一阶段的阴影去除。为了公平起见，我们使用相同的训练数据对这些变体进行训练。表2总结了定量结果。从表中可以观察到：(1)CFT机制提供的上下文映射信息可以帮助提高阴影去除结果的准确性；(2)CPM模块对于确保上下文匹配信息的质量至关重要；(3)我们提出的CFT机制确保了我们CANet的最佳性能。图6展示了不同变体的一些视觉结果。我们可以看到，如果不考虑上下文匹配信息，结果中可能会出现一些阴影伪影，如图6(d)所示。直接替换上下文特征会导致不连续的光照和颜色，如图6(e)所示。此外，图6(b-c)由于错误的映射信息而产生了一些伪影。显然，我们可以看到我们的CANet是最合适和高效的。04.3. 讨论0鲁棒性。为了进一步验证我们方法的鲁棒性，我们收集了一些具有复杂场景的真实世界阴影图像进行实验，并总结了ACANet w/ TM9.626.336.988.446.586.89CANet w/ MNet9.166.206.528.176.216.35CANet w/o CFT10.116.887.549.286.356.96CANet w/ DRCF9.156.216.568.106.116.25DenseUNet10.227.027.5810.446.717.28CANet8.866.076.157.825.885.9847500表2.ISTD和SRD数据集上基于RMSE的割除分析的定量阴影去除结果。0方法 ISTD SRD0图7.在两个数据集之外的真实阴影图像的阴影去除结果。从左到右依次为：（a）输入图像；（b）ST-CGAN的阴影去除结果；（c）DSC的阴影去除结果；（d）ARGAN的阴影去除结果；（e）RIS-GAN的阴影去除结果；（f）我们的CANet的阴影去除结果。0图7中的结果。显然，与其他竞争算法相比，我们的CANet生成的阴影去除结果更加逼真。这些观察结果清楚地证明了我们的CANet在处理复杂的现实场景方面的鲁棒性。0图8.我们方法的局限性说明。从左到右依次为输入图像、我们方法的结果和无阴影的真实图像。输入图像中的红色矩形区域在非阴影区域中没有匹配位置，这使得在该区域恢复光线变得困难。0扩展到视频级别的去除阴影。我们还将我们的CANet应用于视频中的阴影去除，通过分别处理视频中的每一帧。我们每隔0.5秒取一帧结果，并在图9中可视化结果。从结果中我们可以看到，我们的CANet可以在帧级别上很好地去除阴影，但视频的连续性不能得到保证，这是我们未来工作的一部分。0图9. 视频中的阴影去除结果，每隔0.5秒取一帧。0运行时间。首先，我们需要大约10小时来训练我们的CPM模块，然后需要32小时来训练我们的CANet模型。训练完成后，平均只需要1.8秒来处理一张400×400的图像。局限性。我们提出的CANet可以有效地去除图像中的阴影。然而，它仍然存在一些限制。（1）对于一些阴影图像，如果阴影区域与非阴影区域之间没有强烈的上下文相关性，我们的CANet将无法恢复与周围环境一致的照明，如图8所示。（2）由于拍摄过程中环境亮度和相机曝光可能会发生变化，训练样本可能具有不一致的颜色和亮度[15]，导致我们基于数据驱动的CANet生成具有颜色不一致性的去除阴影结果。05. 结论0在本文中，我们提出了一种新颖的两阶段上下文感知网络CANet用于去除阴影。在第一阶段，我们设计了一个上下文补丁匹配模块（CPM），用于搜索上下文特征传递机制（CFT）的潜在匹配对。在第二阶段，我们应用编码器-解码器来改进第一阶段的结果，生成最终的高质量去除阴影结果。广泛的实验结果强烈证实了我们方法的有效性和优越性。我们的框架可以扩展到处理更多的计算机视觉任务，如去除高光[9, 11]，这是我们的未来工作。0致谢0这项工作部分得到了湖北省重点技术创新项目（2018AAA062），国家自然科学基金（NO.61972298）和CAAI-HuaweiMindSpore开放基金的支持。47510参考文献0[1] Rita Cucchiara, Costantino Grana, Massimo Piccardi, andAndrea Prati. 在视频流中检测移动物体、幽灵和阴影.IEEE模式分析与机器智能交易, 25(10):1337–1342, 2003. 10[2] Rita Cucchiara, Costantino Grana, Massimo Piccardi, An-drea Prati, and Stefano Sirotti.利用HSV颜色信息改进移动物体检测中的阴影抑制.在IEEE智能交通系统会议论文集中, 页334–339. IEEE, 2001. 10[3] Xiaodong Cun, Chi-Man Pun, and Cheng Shi.通过双重分层聚合网络和阴影抠图GAN实现无幽灵阴影去除。在AAAI人工智能会议论文集上，卷34，页码10680-10687，2020年。30[4] Jia Deng, Wei Dong, Richard Socher, Li Jia Li, and Fei FeiLi.Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉模式识别会议上，2009年。50[5] Bin Ding, Chengjiang Long, Ling Zhang, and ChunxiaXiao.Argan：用于阴影检测和去除的注意力循环生成对抗网络。在IEEE计算机视觉模式识别国际会议上，页码10213-10222，2019年。1，60[6] Xinzhi Dong, Chengjiang Long, Wenju Xu, and ChunxiaXiao.带有变压器和课程学习的双图卷积网络用于图像字幕。在ACM多媒体国际会议论文集上，2021年。10[7] Graham D Finlayson, Mark S. Drew, and Cheng Lu.熵最小化用于去除阴影。国际计算机视觉杂志，85（1）：35-57，2009年。1，20[8] Graham D Finlayson, Steven D Hordley, Cheng Lu, andMark S Drew.关于从图像中去除阴影。IEEE模式分析与机器智能交易，28（1）：59-68，2005年。1，20[9] Gang Fu, Qing Zhang, Chengfang Song, Qifeng Lin, andChunxia Xiao.用于真实图像的镜面高光去除。计算机图形学论坛，38（7

下载后可阅读完整内容，剩余1页未读，立即下载