特征分解和加权的阴影检测中的亮度偏差

153 浏览量更新于2023-10-13 收藏 1.32MB PDF 举报

阴影检测

特征分解

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4702基于特征分解和加权的阴影检测中的亮度偏差LeiZhu 1KeXu 2†Zhanghan Ke 1Rynson W.H. Lau1†1香港城市大学2上海交通大学lzhu68-c@my.cityu.edu.hk，kkangwing@gmail.com，zhanghake2-c@my.cityu.edu.hk，Rynson. cityu.edu.hk摘要尽管CNN在阴影检测任务上取得了显著的进步，但它们往往在黑暗的非阴影区域和相对明亮的阴影区域中出错。它们也容易受到亮度变化的影响。这两种现象揭示了深阴影探测器在很大程度上依赖于强度线索，我们称之为强度偏差。在本文中，我们提出了一种新的特征分解和重新加权方案，以减轻这种强度偏差，其中多层次的综合功能分解成强度变化和强度不变的成分，通过自我监督。通过对这两类特征的重新加权，我们的方法可以将注意力重新分配到相应的潜在语义上，从而实现对它们的均衡利用。在三个流行的数据集上进行的大量实验表明，该方法优于最先进的阴影检测器。1. 介绍当灯光不能直接到达对象曲面时，可能会出现阴影。虽然它们提供了关于光源方向和场景照明的线索，这有助于场景理解[20，22]，但它们可能会对计算机视觉任务的性能产生不利影响[7，28]。因此，阴影检测至关重要。早些时候，提出了许多作品来检测阴影使用手工制作的功能。然而，这些方法是不可靠的，并且可能在复杂场景中失败。最近，基于深度学习的阴影检测方法已经显示出比传统方法更优越的性能。以端到端的方式进行训练，深阴影检测器可以自动学习用于检测的区别性特征然而，这种便利是有代价的。有迹象表明，现有的深阴影探测器严重依赖于强度线索。虽然它们可能会错误识别相对明亮的阴影区域†Ke Xu和Rynson Lau为联合通讯作者。Rynson Lau领导这个项目。(a)输入图像（b）DSC [16]（c）DSD [50]（d）MTMT [5]（e）我们的（f）GT图1.阴影检测中的强度偏差。行1和3示出了两个原始图像，而行2和4示出了强度增加20%的两个图像现有的方法[16，50，5]严重依赖于强度线索，并且存在两个问题。一方面，他们错误地将阴影内相对较亮的区域识别为非阴影（例如，行1中的黄色泳道），以及作为阴影的暗的非阴影区域（例如，行3中的交通锥）。另一方面，它们的预测由于亮度改变而显著改变（行2和4）。我们的方法减轻了这种强度偏差，并产生更一致和准确的结果。作为非阴影（图）。1行1）或黑暗的非阴影区域作为阴影（图1行3），具有小的亮度偏移（其不应改变图像语义），检测结果可能显著改变（图1B）。1行2和4）。虽然低强度是阴影的强烈指示，但其他线索，如物体-阴影对应关系，阴影边缘和区域连接性也可能有助于阴影检测任务[33]。然而，深度模型往往会被一些主导线索所吸引，而不那么主导的线索则没有得到充分的探索。例如，Geirhoset al. [12]表明，ImageNet训练的分类器通常对纹理有偏见，增加对形状的关注有助于提高分类准确性和鲁棒性。Choi等人[6]还表明，减少场景偏差可以提高动作识别网络的泛化能力为了减轻阴影检测中对强度线索的这种偏差，最直接的解决方案是4703图2.与不使用数据增强的结果（水平虚线）相比，用不同程度的亮度偏移（垂直条）增强训练数据增加了平衡错误率（BER，越低越好）。我们的方法减轻了强度偏差，并产生更好的性能。所有结果都来自在SBU数据集[40]上训练的类似FPN的网络[26]应用诸如随机亮度偏移的数据增强，以隐式地对网络施加强度不变约束不幸的是，这种简单的策略不起作用，甚至可能降低实际中的检测精度，如图1B所示。二、这是由于真实数据和增强数据之间的分布差异[5]。或者，现有的作品试图明确地引入或加强其他线索。例如，Huet al. [16]提出了一种模块，以方向感知的方式对对比度信息进行建模。Chen等人[5]提出在检测中结合阴影边缘和阴影计数然而，引入这些特定的线索不能很好地解决这种强度偏差问题，如图所示。1.一、相反，我们在本文中提出了一种新的特征分解和重新加权方案，以打击不适当的注意强度。具体地说，我们首先将深阴影特征分解成强度变量（即响应于强度变化）和强度不变（即，而不响应强度变化）分量，使得网络可以单独地挖掘这两种类型的特征，然后用适当的权重重新整合它们。这种方法的挑战是如何将高度耦合的特征分解成强度变化和强度不变的分量。为了指导这种分解的学习，我们构建了两个新的自监督任务。虽然一个目标是最小化从输入图像提取的强度不变特征与其亮度偏移对应物之间的差异，但另一个目标是从强度变化特征预测亮度偏移（第12节）。第3.1节）。为了将注意力重新分配到分解的特征上，在训练阶段，我们通过累积学习逐渐将学习重点从强度变化特征转移到强度不变特征[51]。然后，我们在验证集上搜索最佳权重，并将其固定在推理阶段（第二节）。3.2）。总之，我们的主要贡献有三方面：• 我们提出了一种新的特征分解和重新加权-ing计划，以减轻阴影检测中的强度偏差，这使得我们的阴影检测器之间的强度变化和强度不变的功能重新分配其注意力。• 我们提出了一种新的自我监督的方法，这是专门为阴影检测，指导分解的深度功能。• 在三个公开数据集上的实验表明，该方法优于现有的阴影检测方法。2. 相关作品阴影检测。为了检测单个图像中的阴影，早期的工作提出了基于手工特征的物理模型[11，10，38]或机器学习分类器[23，53，14]。通常，它们利用一个或多个启发式线索，例如色度[11，10，23，14，39]，边[11，23，53，17]，强度[38，14，53，17，39]，和纹理[53，14，39]。然而，这些方法不能很好地处理现实世界的复杂场景，当假设（例如，在这些物理模型中做出的阴影图案（例如，均匀照明）被违反，或者在传统机器学习分类器中使用的手工制作的特征不能表示阴影图案。最近，基于深度学习的方法在阴影检测方面取得了Nguyen等人[29]首先提出了一个定制的条件GAN这个任务。Hu等人[16]提出通过以方向感知的方式学习全局上下文特征来检测阴影。Le等人[24]提出联合学习阴影检测器与另一个网络，用于使用对抗训练生成增强的训练数据。Zhu等[55]建议递归地和双向地融合多级特征。Wang等人[41]提出了一种堆叠的条件GAN来联合学习阴影检测和去除。Zheng等[50]建议通过从其他深阴影检测器的错误预测中学习来学习用于阴影检测的分心感知特征最近，Chenet al. [5]引入教师-学生框架[37]来利用额外的未注释阴影图像。他们还明确地检测阴影边界，以提高检测精度。虽然深阴影检测器获得了令人信服的结果，但我们注意到，它们倾向于预测阴影内的较亮区域为非阴影，而暗区域为阴影。此外，当我们调整输入图像的亮度时，它们的预测可能会发生显著变化。这些现象表明，他们过于依赖强度线索来做出预测。这促使我们的工作，试图平衡的强度变化和强度不变的功能的影响。自我监督学习。对于任务不可知的图像表示学习，自监督学习重新4704···-LL最近在表征学习社区受到了极大的关注顾名思义，在自监督学习中，监督信号不是从人类注释中导出的，而是从输入图像本身导出的。一种自我监督学习依赖于精心设计的文本前任务，例如预测相对补丁[9]，解决拼图[31]，着色[47]和预测图像旋转的程度[13，4，25]。在没有明确构造人工标签的情况下，另一系列作品采用对比学习策略[44，2，3]，其中通过对比特征嵌入空间中的正对和负对来获得与那些为任务不可知的视觉表示设计的方法不同，我们将自监督学习应用于任务-这里的第一个自我监督任务是迫使这两个强度不变特征（即，F0i和Fi）是一致的，如：Li=MAE（Fi，F0i），（2）其中ØMAE（，）是平均绝对误差损失函数。此外，我们还预计，强度相关的信息-信息被编码在强度变化特征中。因此，我们认为，我们将第二个自监督任务表述为学习从F0v预测扰动量α v。具体地，我们附加辅助回归头$（;✓）参数r-通过全局平均池化（GAP），然后是全连接（FC）层。它以F0v作为输入来预测ц，并且相应的借口损失被定义为：具体目标：将所述区别性阴影特征分解成强度变化和强度不变的对比。Lv=ØMAE （$（F0v;✓），ц）.（三）ponents。此外，而不是构建一个单一的自我监督的任务，一对自我监督的任务，包括一个新的借口任务和对比学习方法，共同利用学习这样的分解。3. 该方法现有的深阴影检测器对强度线索过于重视。为了减轻这种偏见，我们的关键思想是重新调整网络的重点，占主导地位的强度线索和挖掘其他不太占主导地位的线索。然而，由于深层特征以耦合的方式将所有线索编码在一起，因此不容易将注意力重新分配到某些特定的线索上。因此，我们提出了一个功能分解和重新加权（FDR）计划，以实现这样的可控性。图图3示出了所提出的FDR方案的工作流程，具有训练和推理阶段。3.1. 自监督特征分解我们引入了一对矛盾的自监督任务，以指导在训练阶段的强度变化和强度不变的特征的学习它们分别适用于双边分支机构，以鼓励这种相互补充的分解。形式上，给定训练图像I作为输入，我们首先随机移动其亮度以产生对应的I0：I0=I+ц，（1）其中是移位量。它是从[ ∆，∆]范围均匀采样的随机变量。然后，我们将I和I0都馈送到后面的特征提取子网络通过FDR模块。FDR模块的双边投影分支输出四个中间特征图：Fi（I的强度不变特征）、Fv（I的强度变化特征）、F0i（I 0的强度不变特征）和F0v（I 0的强度变化特征）。由于我们不期望强度不变特征在这样的亮度偏移下改变，因此我们引入了显然，在不参考原始图像I的情况下预测从I0的亮度偏移是不适定的和有挑战性的。然而，值得注意的是，不适定的预文本任务广泛用于自监督表示学习，例如在没有参考的情况下预测图像旋转[13，4，25]或翻转[27]。一方面，对于表征学习，避免通过利用低级视觉特征[32]来解决借口任务的网络学习至关重要，这在我们提供参考图像时很容易发生另一方面，作为一个借口任务，我们关心的是它所诱导的表征，而不是网络能为自己做得多好。在我们的情况下，在没有参考图像的情况下预测亮度偏移迫使网络基于给定图像在平均曝光水平下应该看起来如何来编码强度先验。我们的实验（Sec.5.5.1）示出了提供参考图像I（即，使用适定的借口任务）将恶化最终的检测性能。两个矛盾的损失i和v引导网络将耦合特征分解为强度不变和强度变化特征，从而允许充分挖掘两者并进一步重新评估它们对最终预测的单独贡献。3.2. 基于累积学习的如上所述，由于强度仍然是阴影检测中的主要线索，因此我们应该将强度变化特征Fv和强度不变特征Fi两者都包括到阴影检测任务中。我们需要的是平衡这两类功能的影响。由于整个模型是以端到端的方式训练的，因此我们可以用求和来制定特征融合步骤，如在特征金字塔网络中[26]。此外，为了重新计算贡献-对于这些特性，我们引入了一个权衡参数µ将特征重新加权公式化为：Fr=µFv+（1-µ）Fi，（4）4705-⇥⇥(a)特征提取子网(b)特征分解和重新加权模块(c)阴影探测头ResBlock（预测）骨干1x1转换ResBlock2016年05月05日ResBlockGAP+FC骨干ResBlock(d)训练阶段应用两种辅助性自我监督任务（GroundTruth）图3.所提出的方法的训练和推理流水线。我们的网络包含三个模块：（b）特征分解和重新加权模块，用于将F分解为强度变化特征Fv和强度不变特征Fi，其通过加权求和进一步重新组合以产生（c）阴影检测头，用于预测阴影掩模（d）在训练阶段，我们会安排以下工作：辅助自监督任务，以指导特征分解的学习：联合优化两个辅助自监督损耗Lv并且Li具有阴影检测损失Lce。请注意，具有相同颜色的操作节点共享其参数。其中Fr表示输出阴影特征。确定μ的一个直接选择是从数据中学习，将其设置为可微参数[18]。或者用网络分支预测它[19]。然而，这两种策略在我们的情况下不起作用，因为强度偏差来自于数据。事实上，通过实验（更多细节见第二节）。5.5.2），我们观察到μ将继续增长到接近1的训练进行，而检测性能没有显示出改进。相反，在训练阶段，我们采用累积学习[51]来逐渐将网络的焦点从强度变化的fea对强度不变特征的处理给定当前训练时期T和总训练时期Tmax，μ为：1= 1（T）Ø，（5）Tmax其中Ø是用于控制μ在训练阶段的下降速度的超参数。较大的Ø将引起从强度变化特征到强度变化特征的更平滑的焦点过渡。训练开始时的强度变化特征一旦训练完成，我们需要确定一个合适的μ进行推理。由于μ是[0，1]之间的标量，因此可以通过在验证集上进行网格搜索来获得其值。实际上，我们将搜索步长设置为0。1.一、累积学习策略类似于Dropout [35]。而在Dropout中，一些神经元以硬方式随机丢弃，在累积学习中，我们以渐进的方式丢弃强度变化特征。温柔的方式选择μ是为了获得合适两种类型特征的权重。这隐含地创建两个探测器的集合以利用两者。表1. EfficientNet-B3 [36]与ImageNet [8]上的ResNext 101 [45]具有类似的分类性能，但包含的参数明显较少，需要的计算也较少。骨干#参数触发次数 Top-1 Acc.前5名Acc.EfficientNet-B3ResNext10112M84M1.83281.180.995.595.64. 培训和测试策略骨干的选择我们首先解释我们选择的骨干网络提取的多级集成功能（MLIF）。最近的现有技术的阴影检测器 [55 ， 50 ， 5] 依赖于重骨干（例如， ResNext101[45]）来提取主干特征。然而，这并不适合我们，因为我们的方法需要在训练阶段对亮度偏移输入进行额外的向前和向后传递。为了保持稳定的训练和合理的批量大小，我们选择轻量级的EfficientNet-B3 [36]作为我们的骨干。尽管如此，如表1所示，EfficientNet-B3[36]在ImageNet [8]上具有与ResNext 101 [45]相似的分类性能。这样的替换不应该影响我们的阴影检测性能和分析。以EfficientNet-B3 [36]为骨干，我们从每两个连续的块中提取多级特征，总共产生13组特征图。我们使用双线性上采样来保持它们的空间分辨率保持为输入的空间分辨率的一半，并且使用11卷积来将它们的通道减少到16。然后，这些特征被级联并经由11卷积融合成32通道特征，产生多层集成特征（MLIF）以用于进一步的特征分解和重新加权。损失函数考虑到不平衡的数量4706-⇥N我我自然场景中阴影和非阴影像素，我们采用平衡的二进制交叉熵作为阴影检测损失：L（M，M）=-XNnMlogM+包含4，089张训练图像和638张测试图像。ISTD数据集包含1，330张训练图像和540张测试图像。我们遵循以前的阴影检测方法在SBU训练集上进行训练，并在SBU和SBU上进行测试。ceNi i我（六）UCF测试集。对于ISTD测试集的评估，我们在其训练集上训练我们的模型。Np（1-M）l〇g（1-M），其中i是空间位置的索引。M是地面在这种情况下，我们使用流行的度量，平衡错误率（BER）：真相阴影图。M是预测的阴影掩模。 Np，1TP TNNn和N分别是阴影和非阴影像素的数量以及图像中像素的总数BER=（1-（+2 TP+ FNTN+FP））100，（8）连同用于特征分解的两个建议的损失项Li和Lv，最终损失函数Ltotal为：L总=Lce+λiLi+λvLv，（7）其中λι和λν是两个平衡参数，其根据经验被设置为1和0。1所示。培训详情。在最近最先进的阴影检测器[50，5，55，16]之后，我们使用ImageNet [8]上预训练的权重初始化主干。其他新引入的可训练参数被随机初始化。我们使用Adam对优化器，初始学习率为5e4，其通过指数衰减策略（衰减率= 0. （七）.在每次训练迭代中，输入图像被调整大小为分辨率为400 400，并以6的小批量大小送入网络。我们应用随机水平翻转来增强数据。设置Δ（用于确定特征分解的最大强度偏移量3，并且Ø（用于控制累积学习速度）被设置为2。训练在单个RTX2080Ti GPU上运行由于我们在训练中使用的数据集（SBU [40]和ISTD[41]）不提供验证分割，如[1]中所建议的，我们在训练集中随机保留10%的数据进行验证。为了与现有作品进行公平比较，一旦最佳μ确定后，我们将其放回并重新训练模型与整个训练集。培训时间为2小时在SBU [40]上和在ISTD [41]上1小时。推理。根据最近的阴影检测工作[16，55，24，50，5]，我们使用完全连接的CRF [21]来细化我们的预测（阈值为0。（5）获得最后的阴影掩模在分辨率的400400以每秒161帧的速度运行。5. 实验5.1. 评估数据集和指标评价数据集。我们在三个公共数据集上进行了实验，SBU [40]，UCF [54]和ISTD [41]，以评估我们的阴影检测器。UCF数据集包含135张训练图像和110张测试图像。SBU数据集评价指标。对于定量绩效评估-4707其中TP、TN、FP和FN表示真阳性、真阴性、假阳性和假阴性的数量。比较方法。我们首先将我们的方法与11种最先进的阴影检测器进行比较，包括MTMT [5]， DSD [50]，DC-DSPF [43]、AD-净[24]，DSC[16]，BDRAR[55]，ST-CGAN[41]，patched-CNN [15]，scGAN [30]，stacked-CNN [40]和Unary-Pairwise [14]。所有这些都是基于深度学习的方法，除了基于手工特征的Unary-Pairwise [14由于阴影检测是一种像素级的分类问题，它涉及到显著性目标检测（SOD）和语义分割。为了进行全面的研究，我们还将我们的方法与四种最先进的SOD方法EGNet [49]，ITSD [52]，SRM [42]和Amulet [46]进行了比较。以及一种语义分割方法PSPNet [48]。所有这些方法都是基于深度学习的。它们以与深阴影探测器相同的方式进行训练和测试。5.2. 定量比较表2显示了三个基准数据集的定量结果我们可以看到，我们的方法在三个数据集上实现了所有最先进方法的与第二个性能最好的方法MTMT-Net [5]相比，我们的方法将BER分数降低了3 .第三章。49%，2. 14%和9。9%在SBU [40]，UCF[54]，和[41]第41话请注意，MTMT-Net是一个半监督的方法，利用全标记的阴影图像以及额外的未标记的阴影图像。我们提出的方法不需要额外的训练数据。这证明了我们提出的分解和重新加权方案对挖掘强度变化和强度不变特征的有效性5.3. 定性比较我们进一步比较我们的方法与最新的阴影探测器定性，如图所示。4.第一章我们可以看到，我们的方法具有明显的视觉优势，在具有挑战性的场景中，现有的阴影检测方法当阴影投射在暗物体上时（例如，前三行）或者具有剧烈变化的颜色的区域（例如，过去三4708LLLLLLLL-LL表2.我们的方法与国家的最先进的方法在三个阴影检测基准数据集的定量比较对于每个数据集，我们列出了阴影区域和非阴影区域的错误率以及平衡错误率（BER）。最佳结果以粗体标记。（*）用额外的未标记数据训练MTMT;（**）DSD在其他模型的额外监督下进行训练。SBU [40]UCF [54]ISTD [41]方法年BER#阴影#不剃毛#BER#阴影#不剃毛#BER编号阴影编号不剃毛#FDRNet（我们的）-3.04 2.913.187.288.316.261.551.221.88MTMT* [5]20203.15 3.732.57七点四七十点三十一4.631.721.362.08渠务署 **[50]20193.45 3.333.58七五九九七四5.442.171.362.98DC-DSPF [43]2019四点九四点七5.10七点九六点五9.30---ADNet [24]2018五点三七四点四五6.30九点二五八点三七10.14---DSC [16]2018五点五九九点七六1.4210.54 18.083.003.423.853.00BDRAR [55]2018三点六四三点四十3.897.81 9.695.442.690.504.87ST-CGAN [41]20188.14 3.7512.5311.234.9417.523.852.145.55[15]第十五话201811.56 15.607.52- -----scGAN [30]20179.10 8.399.6911.50 7.7415.304.703.226.18Stacked-CNN [40]201611.00 8.8412.7613.00 8.8412.768.607.699.23[14]第十四话201125.03 36.2613.80- -----资讯科技署[52]20205.00 8.651.3610.16 17.133.192.732.053.40EGNet [49]2019四点四九五点二三3.759.20 11.287.121.851.751.95SRM [42]20176.57 10.522.5012.51 21.413.607.9213.971.86护身符[46]201715.13--15.17-----PSPNet [48]20178.57--11.75--4.264.514.02行），但是现有的方法不能通过过度分割或欠分割阴影区域来很好地区分这种相比之下，我们的方法检测阴影更准确的精细结构和细节。这再次证明了我们提出的分解和重新加权方案在减轻阴影检测中的强度偏差方面的有效性。5.4. 功能可视化图5，我们给出了使用GradCAM的特征可视化的示例[34]。在这个例子中，我们显示了原始图像及其两个亮度偏移版本（一个更亮，一个更暗）。我们可以看出：（1）当强度不变特征（列3）的激活图在阴影区域内均匀分布时，强度变化特征（列4）的激活图与像素强度高度相关;以及（2）在亮度偏移下，强度不变特征的激活保持稳定，但是强度变化特征的激活相应地改变。这些可视化表明，我们的方法可以成功地decomposition- pose这两种类型的功能。补充资料中提供了更多可视化5.5. 消融研究我们首先对SBU数据集进行消融研究，以验证我们的网络的设计选择，包括特征分解和不同累积学习策略的组成报告了CRF细化的平均BER评分。然后我们分析了模型在测试阶段，为了阐明一些重要性特征重新加权的重要性。5.5.1用于特征分解的为了验证所提出的特征分解中使用的组件的有效性，我们比较了完整的模型表3.特征分解的组分的消融研究。我们在SBU上显示BER分数。BBLiLvBER编号基本XXxX⇥XX⇥⇥XX3.32基本+BB3.32基本+BB+Li基本+BB+Lv良定Lv3.243.363.21我们XXX3.04（我们的）具有以下配置：• Basic：我们在多层次综合特征提取后去除双侧分支，并对两个相应的损失函数（即i和v）用于特征分解。这是我们的基线。• 基本+BB：我们在提取多层次综合特征后添加双侧分支，而没有两个分解损失（即，Li和Lv）。• Basic+BB+i：我们从我们的完整模型中移除用于引导强度变化投影的v• Basic+BB+ v：我们从完整模型中删除了用于指导强度不变投影的i损失。• 适定性v：在我们的完整模型中，我们替换v损失（等式2）。3）与v=ØMAE（$（F0vFv;n），n）.它产生一个确定性的借口任务，其中亮度偏移是参考亮度偏移和原始图像两者来预测如表3所示，在仅添加双侧分支的情况下，检测精度没有显示出改善。这意味着，更深的架构并不能帮助提高检测精度。此外，通过仅添加i，性能得到改4709善，因为其适度抑制了i的表现。4710LLLLL⇠(a) 输入图像（b）DSC [16]（c）ADNet [24]（d）BDRAR [55]（e）DSD [50]（f）MTMT [5]（g）ITSD [52]（h）Ours（i）GT图4.所提出的方法与最新的最先进的方法的定性比较最后，最后一行显示使用适定的v，I.E.参考亮度偏移和原始图像来预测亮度偏移产生与仅添加I 这是因为这样的借口任务变得太简单，因为网络甚至可以通过简单地学习从输入到强度变化特征的标识映射来结果，强度变化特征可能无法编码用于阴影检测的高级语义。(a)输入图像（b）F（c）Fi（d）Fv（e）Fr图5.使用GradCAM的特征图可视化[34]。我们显示原始图像（顶行），其较亮的对应物（第二行）和其较暗的对应物（第三行）。从左至右：(a)输入图像，（b）F：分解之前的特征，（c）Fi：强度不变特征，（d）Fv：强度变化特征，（d）Fr：重组特征。注意强度。相比之下，只添加v进一步强调强度，结果变差。总的来说，我们可以看到，我们的改进主要来自于使用成对的自我监督损失（v和i），而不是仅仅来自其中一个。直观地说，它们的联合使用对于特征分解至关重要：它保证由双边分支投影的两个特征图Fv和Fi编码期望的信息，因为这两个任务是相反和互补的（即，当一个迫使网络的一部分编码强度相关信息时，另一个对网络的另一部分施加强度不变约束）。相比之下，如果仅使用它们中的一个，则由于双侧分支源于相同的主干，约束将影响两个投影特征，使得难以很好地分解它们5.5.2不同的累积学习策略我们观察到从我们的实验图。7如果我们只让权重参数μ learnable（即[18]或使用额外的分支来预测它[19]，μ将在训练结束前连续增加到1。这证实了我们的观察，深阴影探测器倾向于偏向强度变化特征。直观地，这是因为CNN偏向于局部特征，并且强度恰好是局部特征。此外，强度确实是阴影检测最明显的线索为了避免这种情况，引入累积学习策略表4比较了用于调整的不同策略在训练阶段。值得注意的是，衰变策略（即，线性衰减和抛物线衰减）执行优于增量策略（即，线性增量和抛物线增量）。这表明我们应该逐渐将注意力从强度变化特征转移到强度不变特征。此外，抛物线衰减策略比线性衰减策略具有更好的性能4711⇠(a) 输入（b）GT（c）µ= 0.4（d）µ= 0（e）µ=1图6.在测试阶段改变µ的影响。左：SBU测试集上相对于µ的BER分数。右图：两个视觉示例。设置µ=0会阻止强度变化特征，µ=1会阻止强度不变特征，µ= 0。4提供了使用两者的最佳权衡。只有强度变化特征被用于阴影预测，其中结果确实易受像素强度的影响（例如，图中箭头所指的区域。6（e））。相反，如果我们设置μ= 0（图6（d）），这意味着如果仅使用强度不变特征，则仅存在一小部分阴影像素被误分类为非阴影像素。这证明强度不变线索为阴影检测提供了区分信息。图7.一个可学习的μ不断增加到1，表明网络偏向于强度变化的特征。对于- ward：我们添加了一个由全局平均池化和全连接层组成的额外分支，以从多层集成特征预测μ反向：我们将μ设置为可微参数，并将其与网络参数一起优化。表4.不同累积策略的消融研究战略µBER编号恒定0.53.45落后-3.47向前-3.42线性增量不Tmax（不）2个Tmax1 -TTmax3.63抛物线增量3.73线性衰减3.26抛物线衰变（我们的）1-（T）2Tmax3.04这意味着在训练开始时的平滑过渡很重要，因为它允许检测器首先彻底利用强度变化特征第但是，设置µ时可获得最佳结果两个极端。总的来说，这些观察结果验证了我们的想法的重要性，以重新分配强度变化和强度不变的功能之间的注意力。图8.失败案例。由于训练集只包含白天图像，因此它可能在夜间图像上失败6. 结论本文提出了一种新的特征分解和重加权方案，以减轻深阴影检测器的强度线索的偏见。关键的想法是将多层次的综合特征分解为强度变化和强度不变的分量，然后实现6.1.1测试相位灵敏度（µ）虽然我们已经在验证集上通过网格搜索确定了µ的最佳值（Sec.3.2），我们在这里改变它测试阶段，了解阴影检测性能如何响应µ的变化。在图6（左）中，相对于SBU测试集上变化的μ的BER分数显示有一个最佳的μ值，它提供了最好强度可变和强度不变特征：或多或少地强调强度变化特征将降低检测性能。图6（右）显示了两个可视化示例，以说明改变μ的效果。注意，设置µ= 1意味着他们之间的注意力。我们引入了两个辅助的自监督任务来指导这个任务特定的特征分解的学习。在三个数据集上的实验结果表明，与现有的方法相比，我们的模型具有良好的性能。虽然我们的深阴影检测器实现了强度变化和强度不变特征的平衡利用，这有助于减轻强度偏差，但在推理时间中，它仍然依赖于从训练集学习的先验。因此，如果图像的照明强烈地偏离训练集的照明，则它可能失败，如图2所示。8.作为未来的工作，我们计划探索域适应阴影检测。4712引用[1] 本·阿西沃拉特昆，马克·芬齐，帕维尔·伊兹梅洛夫，还有安德鲁·戈登·威尔逊.对未标记数据有许多一致的解释：为什么要平均。2019年，在ICLR。5[2] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv：2002.05709，2020。3[3] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey Hinton.大的自监督模型是强半监督学习器。arXiv：2006.10029，2020. 3[4] Ting Chen ， Xiaohua Zhai ， Marvin Ritter ， MarioLucic，and Neil Houlsby.通过辅助旋转损失的自监督gans。在CVPR，2019年。3[5] Zhihao Chen，Lei Zhu，Liang Wan，Song Wang，WeiFeng，and Pheng-Ann Heng.半监督阴影检测的多任务平均值教师。在CVPR，2020年。一、二、四、五、六、七[6] Jinwoo Choi，Chen Gao，Joseph CE Messou，and Jia-Bin Huang.为什么我不能在商场里跳舞？学习减轻动作识别中的场景偏差。NeurIPS，2019。1[7] Rita Cucchiara、Costantino Grana、Massimo Piccardi和Andrea Prati。检测视频流中的移动对象、重影和阴影。TPAMI，25（10）：1337-1342，2003. 1[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。四、五[9] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV，2015年。3[10] Graham D Finlayson，Mark S Drew，and Cheng Lu.熵最小化的阴影去除。IJCV，2009年。2[11] Graham D Finlayson，Steven D Hordley，Cheng Lu，andMark S Drew.关于去除图像中的阴影TPAMI，2005年。2[12] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。2019年，在ICLR1[13] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在ICLR，2018年。3[14] Ruiqi Guo，Qieyun Dai，and Derek Hoiem.使用成对区域的单图像阴影检测和去除。CVPR，2011。二、五、六[15] Sepideh Hosseinzadeh、Moein Shakeri和Hong Zhang。使用补丁卷积神经网络从单个图像进行快速阴影检测。在IROS，2018年。五、六[16] Xiaowei Hu ， Lei Zhu ，Chi-Wing Fu ，Jing Qin ， andPheng-Ann Heng.用于阴影检测的方向感知空间上下文特征。在CVPR，2018年。一、二、五、六、七[17] Xiang Huang ， Gang Hua ， Jack Tumblin ， and LanceWilliams.太阳和天空下的阴影边界的特征是什么？见ICCV，2011年。2[18] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在ICML，第448-456页，2015中。四、七[19] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在ICCV，2019年。四、七[20] Kevin Karsch ， Varsha Hedau ， David Forsyth ， andDerek Hoiem. 将合成对象渲染为旧照片。ACM TOG，30（6）：1-12，2011. 1[21] Phil i ppK raühenbuühlandVladlenKoltun. 具有高斯边势的全连通crfs的有效推理NeurIPS，2011。5[22] Jean-FrancoisLalonde ， AlexeiAEfros ， andSrinivasaGNarasimhan. 从单个室外图像估计自然光照。在ICCV，第183-190页，2009中。1[23] Jean-Fr ancoisLalonde ， Alex eiAEfros ， andSrinivasaGNarasimhan.户外消费者照片中地面阴影的检测。ECCV，2010年。2[24] Hieu Le，Thomas F. Yago Vicente，Vu Nguyen，MinhHoai，and Dimitris Samaras. A+D网络：训练一个具有对抗性阴影衰减的阴影检测器。在ECCV，2018。二五六七[25] Hankook Lee，Sung Ju Hwang，and Jinwoo Shin.重新思考数据增强：自我监督和自我升华。 arXiv ：1910.05872，2019。3[26] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。二、三[27] Zhiqiu Lin，Jin Sun，Abe Davis，and Noah Snavely.视觉手性。在CVPR中，第12295-12303页，2020年。3[28] 苏海尔·纳迪米和比尔·巴努视频中运动阴影和目标检测的物理模型。TPAMI，26（8）：1079- 1087，2004. 1[29] Vu Nguyen，Tomas F.Yago Vicente，Maozheng Zhao，Minh Hoai，and Dimitris Samaras.使用条件生成对抗网络进行阴影检测。InICCV，2017. 2[30] Vu Nguyen，Tomas F Yago Vicente，Maozheng Zhao，Minh Hoai，and Dimitris Samaras.使用条件生成对抗网络进行阴影检测。 InICCV，2017. 五、六[31] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。在ECCV，2016年。3[32] JulienPhilip ， Micha eülGharbi ， TinghuiZhou ， AlexeiAEfros，and George Dr

下载后可阅读完整内容，剩余1页未读，立即下载