基于对抗性阴影衰减的阴影检测方法及其在SBU基准和UCF数据集上的性能评估

171 浏览量更新于2023-10-13 收藏 2.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

A+D网络：训练具有对抗性阴影衰减Hieu Le1，Tomas F. Yago Vicente1， 2，VuNguyen1，Minh Hoai1，Dimitris Samaras1{hle，tyagovicente，vhnguyen，minhhoai，samaras} @cs.stonybrook.edu1石溪大学，石溪，纽约11794，美国2亚马逊/A9抽象。我们提出了一种新的基于GAN的框架，用于检测图像中的阴影，其中阴影检测网络（D-Net）与阴影衰减网络（A-Net）一起训练，生成对抗性训练示例。 A-Net修改由简化的物理阴影模型约束的原始训练图像，并且针对D-Net的阴影进行预处理。因此，它有效地增加了具有难以预测的情况的D-Net的训练数据。训练D-Net以预测原始图像和从A-Net生成的图像中的阴影我们的实验结果表明，从A-Net的额外的训练数据显着提高了D-Net的阴影检测精度。我们的方法在最具挑战性的阴影检测基准（SBU）上的性能优于最先进的方法，并且在UCF上测试的跨数据集任务上也获得了最先进的结果。此外，该方法实现了精确的实时阴影检测，每秒45帧。关键词：阴影检测，GAN，数据增强1介绍阴影经常出现在自然场景中，并且可以妨碍许多任务，例如图像分割、对象跟踪和语义标记。阴影是在光源、几何体和场景中对象的材料之间的复杂物理交互中形成的。关于物理环境的信息，例如稀疏3D场景重建[33]，粗略的几何估计[22]以及不同照明条件下同一场景的多个图像[25]可以帮助阴影检测。不幸的是，从单个图像推断一般场景的物理结构仍然是一个困难的问题。阴影检测的难度在处理消费级照片和网络图像时加剧[15]。这样的图像通常来自非线性相机传感器，并且呈现许多压缩和噪声伪影。在这种情况下，最好训练和使用基于外观的分类器[36，7，27，13]，而不是依赖于照明的物理模型[4，5]。然而，阴影分类器2Le等原始训练集衰减器对抗性样本增强训练集阴影探测器图1：对抗阴影衰减。衰减器获取原始阴影图像并生成不同的对抗阴影样本以训练阴影检测器。需要带注释的训练数据，并且分类器的性能通常与训练数据的量相关。不幸的是，带注释的阴影数据的收集和标记是昂贵的。只有最近可用的训练数据才从几百个图像[7，36]增加到几千个[30]，从而能够基于深度卷积神经网络[30，20]训练更强大的阴影分类器。然而，与推动深度学习进步的数据集相比，即使几千张图像也是一个很小的数量[2，16]。因此，可以安全地假设深度学习阴影分类器的性能不幸的是，收集和注释阴影数据是一个费力的过程。即使是一个懒惰的注释方法[28]也需要付出很大的努力;注释步骤本身对于每个图像花费20秒，不包括数据收集和清理工作。在本文中，而不是收集额外的数据，我们提出了一种方法，以最大程度地提高可用的阴影数据的效用其主要思想是通过弱化原始训练图像中的阴影区域来我们将这个过程称为阴影衰减，并训练一个深度神经网络来实现这一点，称为A-Net。该网络修改原始阴影图像，以削弱阴影效果，如图所示1.一、生成的图像作为阴影检测器D-Net的额外挑战性训练样本。我们提出了一种新的框架，其中阴影衰减器和阴影检测器以对抗的方式联合训练。衰减模型A-Net的输出为对抗训练样本提供了难以检测的阴影区域，以提高检测器D-Net的整体可靠性。最近的研究还表明，深度网络对对抗性扰动高度敏感[19，26，34]。通过联合训练A-Net和D-Net，我们直接增强了检测器D-Net对对抗条件的抵抗力，并提高了检测器的泛化能力，遵循最近的趋势[35，3，31]。本质上，这里提出的是用于阴影检测的数据增强方法。它与其他数据增强方法不同，并且它不受一般数据扩充方法的两个固有问题的影响，这两个问题是：1）增强的数据可能与真实数据非常不同，对训练的分类器对真实数据的泛化能力没有影响，以及2）难以确保增强的数据样本具有与原始数据相同的标签，并且这导致训练标签噪声。解决这些问题的一种流行方法是约束增强的…基于对抗阴影衰减的阴影检测3数据样本接近原始数据，例如，设置原始样本和生成样本之间的L2距离但是，很难设定正确的界限;大的值将产生标签噪声，而小的值将产生与原始数据太相似的增强样本，从而没有产生任何益处。在本文中，我们解决这两个问题的原则性的方式，具体到阴影检测。我们的想法是使用阴影和照明的物理模型来指导数据生成过程，并估计具有标签噪声的概率。请注意，我们的目标是减弱阴影区域，而不是删除它们。阴影去除是一个重要的问题，但是训练一个好的阴影去除网络将需要许多对应的阴影/无阴影图像的训练对，这是不可用的。此外，完全去除阴影将对应于具有标签噪声，并且这可能损害检测器的性能实验结果表明，我们的阴影检测器优于国家-在具有挑战性的阴影检测基准SBU [30]以及跨数据集任务（在SBU上训练和在UCF数据集上测试[36]）中使用最先进的方法。此外，我们的方法是更有效的比许多现有的，因为它不需要一个后处理步骤，如补丁平均或条件随机场（CRF）平滑。对于256× 256的输入图像，我们的方法以每秒45帧的速度检测阴影。2相关工作单幅图像的阴影检测是一个很好的研究课题。早期的工作集中在照明的物理建模[5，4]。这些方法呈现阴影检测是平凡的图像的照明不变表示。然而，这些方法仅适用于用窄带传感器拍摄的高质量图像[15]。将基于物理的约束与粗糙几何相结合的另一种早期尝试是Panagopoulos等人的方法。[21]其中照明环境被建模为von Mises-Fisher分布的混合[1]，并且阴影像素通过图形模型被分割最近，基于从小注释数据集[36，7]学习分类器[8，11，27，13]的数据驱动方法已经取得了更大的成功。例如，Vicenteet al.[27，29]基于留一法估计优化了多核最小二乘SVM。这种方法在UCF [36]和UIUC [7]数据集上产生了准确的结果，但其底层的训练过程和优化方法无法处理大量的训练数据。为了处理大量训练数据并从中受益，最近的阴影检测方法已经基于深度神经网络的随机梯度下降训练而开发。Vicente等人[30]提出了一种堆叠CNN架构，将图像级全卷积神经网络（FCN）与补丁CNN相结合这种方法取得了良好的检测结果，但它很麻烦，因为在使用其预测来训练补丁CNN之前必须训练全连接网络（FCN）。类似地，测试在计算上是昂贵的，因为它需要FCN预测，然后是预测。4Le等阴影图像A-net对抗阴影图像D-net预测掩码差额损失地面实况荫罩图2：阴影检测器的对抗训练。A-Net将阴影图像及其对应的阴影遮罩作为输入，并通过衰减输入图像中的阴影区域来生成对抗示例衰减的D-Net将此图像作为输入，旨在恢复原始阴影掩模。覆盖测试图像的密集采样块的多个部分最近，Nguyenet al.[20]提出了scGAN，一种基于生成对抗网络（GANs）的方法[6]。他们提出了一个参数条件GAN [17]框架，其中生成器经过训练以生成阴影掩模，条件是输入RGB补丁和灵敏度参数。为了获得输入图像的最终阴影遮罩，生成器必须在多个尺度的多个图像块上运行，并且对输出进行平均。他们的方法在SBU数据集上取得了良好的结果，但检测过程在测试时计算量很大。我们提出的方法也使用对抗训练进行阴影检测，但它与scGAN有根本的不同。scGAN使用生成器来生成以输入图像为条件的二进制阴影掩模，而我们的方法使用生成器来生成RGB空间中的增强训练此外，虽然scGAN使用鉴别器作为调节器来鼓励全局一致性，但我们的方法中的鉴别器对于阴影像素分类起着更突出的作用。与scGAN相比，我们的方法不需要后处理或输出平均，从而导致实时阴影检测。另一种使用GAN进行阴影检测的方法是堆叠条件GAN[32]。然而，该方法需要无阴影图像的可用性另一种最近的方法[10]提出使用上下文信息来进行更好的阴影检测。上下文信息通过具有多个空间方向递归神经网络来整合。虽然这种方法在阴影检测基准测试中获得了优异的结果，但它还需要运行CRF作为后处理步骤。我们提出了一种方法，以提高阴影检测与增强训练的例子，在同步数据增强的最新趋势例如，Zhanget al.[35]提出了一种简单的增强方法，通过用示例对及其标签的线性组合来丰富数据集，以提高网络的泛化能力及其对对抗性示例的抵抗力。Shrivastava等人提出了另一种使用对抗性示例来训练网络的方法。[24]第10段。他们对抗性地训练了一个Refiner网络，该网络输入合成示例并输出更逼真的图像。细化的示例可以用作额外的训练数据。同样，我们的基于对抗阴影衰减的阴影检测5提出的衰减器（A-Net）采用原始训练图像并生成具有衰减阴影的真实图像，这些图像用作我们的阴影检测器的额外训练示例。对抗性示例的生成是与检测器（D-Net）的联合训练过程的一个组成部分，与[24]相反，生成的数据是丰富训练集的预处理步骤。阴影衰减器的效果也可以被视为与对抗性扰动有关[18]：A-Net修改输入图像，以便欺骗阴影检测器D-Net的预测。对抗性示例也可以用于改进域自适应网络的泛化[31]，其中条件GAN用于执行特征增强。3对抗训练和衰减3.1框架概述我们提出了一个新的框架，阴影检测的基础上对抗训练和阴影衰减。我们提出的模型包含两个联合训练的深度网络。图2说明了我们的框架的流程图阴影衰减网络，称为衰减器或A-Net，需要作为输入的阴影图像，年龄和其相应的阴影掩模。基于这些输入，衰减器生成阴影已被衰减的输入图像的版本衰减可以被认为是部分阴影去除。由衰减器生成的图像被馈送到阴影检测网络，称为检测器或D-Net，其预测阴影区域。在每次训练迭代中，D-Net还采用原始输入图像，并学习预测相应的注释地面真实阴影掩模。A-Net被训练成衰减阴影区域，以便欺骗阴影检测器。特别地，对于所提供的阴影掩模内部的像素，A-Net操纵像素的值以将它们伪装成非阴影像素，使得它们不能被D-Net识别我们进一步约束的衰减变换使用的损失，结合物理启发的阴影域知识。这增强了所生成的像素的质量，提高了检测器的通用性。与此同时，A-Net学习不改变阴影遮罩之外的值或像素。我们用惩罚阴影掩模外侧的区域（非阴影像素）上的所生成的图像与输入图像之间的差异的损失来实施这一点。具有所有上述约束的对抗性训练过程和来自阴影检测网络的反向传播误差引导A-Net执行阴影衰减。检测器网络D-Net采用A-Net生成的对抗性示例并预测阴影掩模。由A-Net生成的图像中的阴影区域通常比输入图像中的阴影区域更难检测，因为A-Net被训练来衰减阴影以欺骗D-Net。因此，除了原始训练示例之外，D-Net还使用具有挑战性的示例进行训练。随着D-Net提高其检测阴影的能力，A-Net也提高了其减弱阴影的能力，以使D-Net与更强硬的对抗性示例混淆。该过程增强了D-Net的阴影检测能力。6Le等阴影图像掩模A-net差额损失对抗阴影图像地面实况荫罩面罩内区域外部区域输入图像的非阴影区域D-net被骗了吗物理约束图3：A-Net。阴影掩模外部的区域受到相对于输入图像的差异损失的约束。阴影掩模内部的区域受到来自D-Net的反馈和基于物理的约束的约束。3.2基于物理的阴影和光照模型我们使用基于物理的照明模型来指导数据生成过程，并避免标签噪声。我们使用的简化照明模型使用的郭等。其中，每个像素由直射光和环境光的组合照亮：Ii=（kiLd+ Le）Ri，其中I是图像，Ii表示图像的第i个像素的颜色。Ri是对应于第i个像素的表面反射率Ld和Le是分别表示直射光和环境光（其对面光源和内部反射进行建模）的颜色和强度的3×ki∈[0，1]是指示多少直射光到达像素i的阴影因子。对于阴影的本影区域，k_i对于无阴影区域内的像素，ki= l。我们可以通过比率将原始阴影区域与其对应的无阴影版本相关联：II无影Ld+LeI阴影=k L+ L。iid e通过取无阴影和阴影值之间的比值，我们消除了未知的反射系数。我们假设直接光在由图像描绘的场景上是恒定的，并且环境光的效果对于所有像素是相似的我们将此模型纳入A-Net和D-Net的训练– A-Net：我们设计了物理损失，以强制衰减阴影区域内像素的照明比具有小的方差。– D-Net：我们直接估计阴影掩模内部和外部区域之间的照度比，以测量衰减图像中的阴影强度，以避免训练标签噪声。3.3阴影衰减器网络阴影衰减器网络A-Net被训练为仅重新照射阴影区域，使得它们不能被检测器网络D-Net检测到。获得基于对抗阴影衰减的阴影检测7我我有用且真实的衰减阴影，A-Net旨在欺骗D-Net，同时尊重物理照明模型。图3示出了A-Net的训练过程，其在以下约束和目标下衰减阴影区域：1）保留非阴影像素的2）阴影像素被重新照亮，使得D-Net无法将它们识别为阴影像素。3)所得到的像素变换遵守物理启发的照明约束。通过定义适当的损失函数，可以将这些约束和目标纳入A-Net的训练设I表示输入图像，M（I）是I的荫罩。设A（I）表示输入对I和M（I）的A-Net的输出（这里我们将A（I）写为A（I，M（I））的缩写形式）。令D（I）表示输入图像I的D-Net的输出，即预测的阴影掩模。理想情况下，阴影像素的输出应为1，否则为0A-Net训练的目标是最大限度地减少以下LA（I）=λnsdLnsd（I）+λsdLsd（I）+λphLph（I），（1）其中，Lnsd是对针对图像I的具有低质量M（I）外部的像素的值的修改进行惩罚的损失：Lnsd（I）=mani∈/M（I）A（I）i−Ii1。Lsd是对抗性损失。它惩罚了D-Net对所生成图像上的阴影像素的正确识别，仅限于训练样本M（I）内部的区域：Lsd（I）=meani∈M（I）[D（A（I））i]。Lph是一种物理损耗，以确保所生成的图像中的阴影区域以物理上可行的方式被重新照亮基于3.2节中描述的照明模型我们希望比率A（I）i对于再照明阴影区域内的所有像素i都是相似的。我们通过为对数比ΣLph（I）=方差[log（A（I）c）− log（Ic）]。c∈{R，G，B}i∈M（I）ii其中（·）不表示RGB颜色或图像的颜色或内容中的像素值。图图4显示了一些衰减阴影的示例，在对抗训练过程中的A-Net。两个原始输入图像包含强度为3.46和2.63的易于检测的阴影。测量这些阴影强度值的启发式方法在第3.4节中描述。给定这些输入图像和阴影掩模的A-Net的输出在列（c，d，e）中示出，在训练期间在时期1、5和40处获得。随着训练的进行，生成的图像中的阴影变得更难检测。在数值上，衰减阴影的阴影强度随时间减小。此外，A-Net还学会了不改变非阴影区域。3.4阴影探测器网络D-Net是我们框架的核心。它学习从A-Net生成的对抗性示例以及原始训练示例中检测阴影。在每次训练迭代中，原始输入和反向输入都衰减。8Le等meani[A（I）i]对抗样本(a)输入（b）GT（c）时期1（d）时期5（e）时期40图4：衰减阴影的示例。(a)输入图像。(b)地面真实阴影遮罩。（c，d，e）：分别从时期1、5和40由A-Net相应的阴影强度在每个图像的左上角显示为黑色文本。使用图像来训练D-Net。D-Net的学习目标是最小化以下损失函数：LD（I）=λrealD（I）−M（I）1+λadv（A（I））D（A（I））−M（I）1，（2）其中λreal和λadv（A（I））分别控制D-Net应该从真实样本I和对抗样本A（I）中学习多少。λadv（A（I））取决于我身上的阴影被削弱了多少如果A（I）是I的完全无阴影版本，则λadv（A（I））理想地应该为零。否则，该损失函数对应于具有标签噪声，因为它要求阴影检测器D-Net的输出对于输入A（I）与阴影掩模M（I）相同，而A（I）是无阴影图像。为了确定A（I）是否是无阴影图像，我们基于在第2节中描述的照明模型推导出启发式算法3.2. 我们首先在阴影边界旁边定义两个区域，表示为Bin和Bout，如图2所示五、Bout（绿色）是边界外的区域，通过从阴影蒙版的扩张版本中减去阴影蒙版来计算。内部区域B（红色）的计算方法与腐蚀的荫罩相似。我们将阴影强度k强度定义为两个边界区域的平均像素强度的比率：k 强度（A（I））=meani∈Bout [A（I）i]. 图图5示出了具有两个不同阴影的图像的两个示例∈Bin具有较暗阴影（相对于非阴影区域）的图像具有较高的k强度值，反之亦然。我们使用衰减图像的阴影强度来决定D-Net是否应该从衰减的阴影图像中学习启发式地，如果阴影强度k_strength太接近于1，即，阴影边界两侧的两个区域具有相同的平均强度。基于这种启发式，我们为对抗性示例设置权重基于对抗阴影衰减的阴影检测9λAdv输入GT掩码Bin，Bout输入GT掩码Bin，Bout(a) 强阴影（k强度 = 4.16）（b）弱阴影（k强度 = 1.15）图5：估计阴影强度。从地面实况阴影掩模，我们定义通过阴影掩模的膨胀和腐蚀获得的两个区域Bin（红色）和Bout（绿色）阴影强度k_strength被计算为B_out中的像素的平均强度与B_in中的像素的平均强度之间的比率。（a）具有非常强的暗阴影的图像，k强度= 4。16.(b) 光阴影k强度= 1。15.A（I）如下：λadv（A（I））=.0Adv如果k强度（A（I））>1+（三）否则，其中λ〇是对抗性示例的可调基线因子，并且是小的我们根据经验将阈值设置为0.05。3.5网络架构A-Net和D-Net都是基于U-Net架构开发的[23]。在[12]之后，我们创建了具有七个跳过连接模块的网络，每个模块都包含卷积，BatchNorm和Leaky-ReLu序列[9]层。A-Net输入是一个四通道图像，它是RGB图像和相应阴影遮罩的级联。A-Net输出是三通道RGB图像。D-Net的输入是RGB图像，输出是单通道阴影遮罩。4实验和结果我们在几个公共阴影数据集上进行了实验。其中一个是SBU阴影数据集[30]。该数据集由成对的RGB图像和相应的注释阴影二进制掩模组成。SBU数据集包含4089张训练图像和638张测试图像，是目前最大和最具挑战性的阴影基准。我们还对UCF测试集[36]进行了跨数据集实验，该测试集包含110张带有相应阴影掩模的图像我们定量评估阴影检测性能的测试地面真实阴影掩模与D-网络产生的预测掩模进行比较。作为阴影检测文献中的常见做法，我们将使用平衡错误率（BER）作为主要的评估指标。的10Le等AdvBER定义为：BER= 1−1.TP+TNΣ，其中TP、TN、FP、FN2TP +FN TN+FP分别是真阳性、真阴性、假阳性和假阴性像素的总数。由于自然图像倾向于压倒性地更多的非阴影像素，BER比平均像素精度更少地偏置。我们还提供了单独的平均像素错误率的阴影和非阴影类。培训和实施细节。我们使用随机梯度下降和Adam求解器[14]来训练我们的模型。我们使用小批量SGD，批量大小为64。在每次训练迭代中，我们连续执行三次向前传递：将输入阴影图像I转发到A-Net以获得对抗示例A（I），然后分别将对抗图像和阴影输入图像转发到D-Net。我们在D-Net上交替一个参数更新步骤，在A-Net上交替一个更新步骤，如[6]所建议的。在训练和测试之前，我们将图像转换到对数空间。我们实验性地设置了训练参数-参数为：（λnsd，λsd，λph，λreal，λ0）：=（30，1，100，0. 八比零。2）的情况。我们实施了我们的PyTorch 框架更多详情请访问： www3.cs.stonybrook 。edu/~cvl/projects/adnet/index.html4.1阴影检测评估我们评估的阴影检测性能的建议D-Net上的SBU和UCF数据集。为了检测图像中的阴影，我们首先将图像大小调整为256× 256。我们将此图像输入到D-net以生成大小为256× 256的阴影掩模，将其与地面真实阴影掩模进行比较以进行评估（原始大小）。在表1中，我们将我们的方法的性能与最先进的方法Stacked-CNN[30]，scGAN [20]，ST-CGAN [32]和DSC [10]进行了比较。我们还考虑了D-Net的一个变体，在没有来自A-Net的衰减阴影图像的情况下进行训练。所有方法都在SBU训练集上训练。性能报告的BER，以及阴影和非阴影错误率。请注意，DSC [10]仅报告了SBU数据集上的BER数，并且其跨域结果是在与常用UCF测试数据集不同的测试数据上获得的（如[36]所提出的）。在SBU测试集上，我们的检测器（D-Net）优于以前的最先进的方法。与Stacked-CNN相比，我们获得了51%的误差减少。与scGAN和ST-CGAN相比，D-Net分别带来了41%的错误减少和33%的错误减少。D-Net比DSC的BER高0.2%，尽管它明显更简单。D-Net是完全卷积的，不需要运行递归神经网络和CRF后处理。对于交叉数据集实验，检测器在SBU训练集上进行训练，但它们在UCF数据集的测试集上进行评估[36]。这些数据集是不相交的;虽然SBU涵盖了广泛的场景，但UCF专注于存在暗阴影和暗反照率对象的图像。再次，我们将我们的方法与以前的最先进的方法进行比较：Stacked- CNN [30]，scGAN [20]和ST-CGAN [32]。在BER方面，我们提出的D-Net相对于scGAN和D-Net产生了18%和16%的显著误差减少。基于对抗阴影衰减的阴影检测11ST-CGAN。使用和不使用衰减阴影图像训练的D-Net之间的性能差距非常显著，突出了使用衰减阴影示例进行训练的好处。表1：SBU阴影数据集[30]上的阴影检测方法和UCF [36]上的交叉数据集检测的评估。所有方法都在SBU训练数据上训练示出了平衡错误率（BER）和每类错误率 DSC [10]仅报告了BER数字，并使用了不同的UCF测试数据集，因此无法比较跨域性能。最佳表演用粗体字印刷。在SBU测试集上评价[30]在UCF测试集上进行评估[36]方法BER阴影不剃毛BER阴影不剃毛Stacked-CNN [30]11.09.612.513.09.017.1scGAN [20]9.17.810.411.57.715.3ST-CGAN [32]8.13.712.511.25.017.5DSC [10]5.6-----D-Net（不带A-Net）8.88.19.311.88.914.7D-Net（带A-Net）5.45.35.59.47.011.84.2定性结果图在图6（i）和（ii）中，我们示出了SBU数据集上的阴影检测结果各列分别显示输入图像、地面实况阴影遮罩和D-Net输出。在图6中。(i)，我们看到D-Net如何正确预测不同类型场景（如沙漠，山脉，雪地）以及不同天气条件（从晴天到多云和阴天）下的阴影。图六、(ii)，请注意D-Net如何准确预测特写镜头、远距离镜头和航拍图像中的阴影。图7示出了与scGAN [20]的阴影检测结果的通常，D-Net会产生更精确的阴影，边界更清晰。4.3失败案例我们的方法的一些失败案例如图所示。8.许多是由于暗反照率材质区域被错误地分类为阴影。我们还investi门错误分类像素的位置，以了解故障的原因图图9示出了错误预测的像素相对于它们到SBU测试集上最接近的地面实况阴影边界的距离的比例丢失的阴影像素的大部分在到边界的小距离内。具体地，65%的假阴性情况在阴影边界的10个像素内这意味着我们的方法错过的阴影像素可能是12Le等(a) 输入（b）GT（c）我们的（a）输入（b）GT（c）我们的(i)（二）图6：阴影检测结果。我们提出的方法准确地检测阴影：（i）不同的场景和照明条件;（ii）特写镜头和远距离镜头，以及空中图像。在阴影边界周围或非常小的阴影区域内。同时假阳性预测的大部分远离阴影边界。这可能是由于将暗物体误分类为阴影所致。4.4消融研究和参数分析我们进行了实验，以分析基于物理的损失（Lph）和权重函数λadv在我们的框架中的影响我们用两个额外的场景来训练我们的模型以进行比较：1）没有基于物理的损失并且没有权重函数λadv，以及2）具有基于物理的损失但没有权重函数λadv。我们将这两个组态分别记为（−Lph，−λadv）和（+Lph，−λadv表2显示了阴影检测结果用这些修改的条件训练的模型。我们在UCF和SBU测试集上测试了在SBU上训练的模型。从表2中可以看出，丢弃权重函数λadv略微增加了错误率，而丢弃基于物理的损失则大幅增加了错误率。在图10中，我们比较了在有和没有基于物理的损失的情况下训练的模型生成的对抗性示例。合并该损失产生具有更真实的衰减阴影的图像。因此，所产生的示例有助于阴影检测器D-Net的训练。在我们的实验中，在第50个训练阶段，基于λadv，A-Net生成的所有图像中约有6%未被使用。我们进行了实验来研究我们的框架的参数的效果我们从第4节中报告的参数设置开始当我们基于对抗阴影衰减的阴影检测13Adv(a)输入（b）GT（c）scGAN（d）我们的图7：SBU数据集上的阴影检测的比较。我们的方法与最先进的方法scGAN [20]之间的定性比较(a) 输入图像。（b）地面实况荫罩。（c）通过scGAN预测的阴影掩模(d)预测荫罩由我们的方法。(a) 输入（b）GT(c)我们图8：失败的阴影检测示例。由于非阴影暗反照率区域，我们的方法失败的情况。(a)输入图像。 (b) 地面实况面具（c）通过我们的方法预测荫罩。图9：错误预测像素到SBU测试集上最近阴影边界的距离的累积曲线当λsd= 10时，D-Net的误码率为6.5%。随着λsd的增加，A-Net会更显著地衰减阴影，但也倾向于改变非阴影部分，通常会生成较低质量的图像在第二个实验中，我们重新调整了输入到D-Net的真实图像和对抗图像之间的比例当我们选择λ0= 0。5且λreal= 0。5、D-Net实现了7.0%的误码率。14Le等表2：消融研究。比较我们的框架的阴影检测结果，包括和不包括基于物理的损失Lph。检测性能显著受益于将基于物理的损耗Lph并入训练过程中：SBU[30]测试集中BER降低20%，UCF [36]中错误降低27%（跨数据集任务）在SBU测试集上评价在UCF测试集上评价方法BER阴影不剃毛BER阴影不剃毛D-Net（+Lph，+λadv）5.45.35.59.4 7.011.8D-Net（+Lph，−λadv）5.76.25.29.9 7.312.5D-Net（−Lph，−λadv）7.17.66.713.6 15.911.3(a) 输入（b）不含Lph的结果（c）含Lph的结果图10：使用和不使用物理生成的对抗性示例的示例。（a）输入图像I。（b）由在没有基于物理的损失的情况下训练的A-net生成的对抗性示例（c）由基于物理损失训练的A-网络生成的对抗性示例5总结在本文中，我们提出了一种新的框架对抗训练的阴影检测器使用阴影衰减。我们已经通过实验展示了我们的模型如何能够有效地从真实阴影训练示例和对抗性示例中学习。我们训练的模型在两个基准数据集中的性能优于以前最先进的阴影检测器，证明了我们模型的有效性和泛化能力。此外，据我们所知，这是第一个可以以45 fps的实时速度准确检测阴影的阴影检测器。鸣谢。这项工作得到了越南教育基金会，Adobe的礼物，NSF资助CNS-1718014，合作伙伴大学基金和SUNY 2020基础设施运输安全中心的支持。作者还要感谢NVIDIA的GPU捐赠。基于对抗阴影衰减的阴影检测15引用1. Banerjee，A.，迪隆岛Ghosh，J.，Sra，S.：基于冯米塞斯-费舍尔分布的单位超球面聚类。Journal of Machine Learning Research 6，13452. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：ImageNet：一个大规模层次化图像数据库。在：IEEE计算机视觉和模式识别会议论文集（2009）3. Erraqabi ， A. ， Baratin ， A. ， Bengio ， Y. ， Lacoste-Julien ， S. ： A3T ：Adversarially aug- mented adversarial training（2018），arXiv：1801.040554. Finlayson，G. Hordley，S.，吕，C.，Drew，M.：关于去除图像中的阴影。 IEEE Transactions on Pattern Analysis and Machine Intelligence（2006）5. Finlayson，G. Drew，M.，Lu，C.：熵最小化的阴影去除。国际计算机视觉杂志（2009）6. Goodfellow，I.J. Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，南卡罗来纳州考维尔Bengio，Y.：生成对抗网络。神经信息处理系统进展（2014）7. Guo，R.，Dai，Q.，Hoiem，D.：使用成对区域的单图像阴影检测和去除。在：IEEE计算机视觉和模式识别会议论文集（2011）8. Guo，R.，Dai，Q.，Hoiem，D.：用于阴影检测和去除的配对区域。IEEE Transactions on Pattern Analysis and Machine Intelligence（2012）9. 他，K.，张，X.，Ren，S.，孙杰：深入研究整流器：在imagenet分类上超越人类水平的性能。在：计算机视觉国际会议论文集（2015）10. Hu，X.，Zhu，L.，中国科学院，Fu，C.W.，秦杰，Heng，P.A.：用于阴影检测的方向感知空间上下文特征。在：IEEE计算机视觉和模式识别会议论文集（2018）11. 黄，X.，Hua，G.，Tumblin，J.，Williams，L.：太阳和天空下的阴影边界的特征是什么计算机视觉国际会议论文集（2011）12. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。在：IEEE计算机视觉和模式识别会议论文集（2017）13. Khan，H.，Bennamoun，M.，Sohel，F.，Togneri，R.：用于鲁棒阴影检测的自动特征学习。在：IEEE计算机视觉和模式识别会议论文集（2014）14. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法在：学习表征国际会议论文集（2015）15. Lalonde，J.F.，埃夫罗斯，匿名戒酒会Narasimhan，S.G.：检测户外消费者照片中的地面阴影在：欧洲计算机视觉会议论文集（2010）16. Lin，T.Y.，Maire，M.，Belongie，S.，Hays，J.，Perona，P.，Ramanan，D.Doll，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。在：欧洲计算机视觉会议论文集（2014）17. Mirza ， M. ， Osindero ， S. ：条件生成对抗网。 ArXiv 预印本 arXiv ：1411.1784（2014）18. Moosavi-Dezfooli，S.M.，Fawzi，A.，Fawzi，O.，Frossard，P.：普遍对抗性扰动。在：IEEE计算机视觉和模式识别会议论文集（2017）16Le等19. Moosavi-Dezfooli，S.M.，Fawzi，A.，Frossard，P.：Deepfool：一种简单而准确的欺骗深度神经网络的方法。IEEE计算机视觉与模式识别会议论文集（2016）20. Nguyen，V.，维森特，T.F.Y.，赵，M.，Hoai，M.，萨马拉斯，D.：使用条件生成对抗网络进行阴影 In ： Proceedings of the InternationalConference on Computer Vision（2017）21. Panagopoulos，A.，Samaras，D.，Paragios，N.：使用混合模型的鲁棒阴影和照明估计。在：IEEE计算机视觉和模式识别会议论文集（2009）22. Panagopoulos，A.，Wang，C.，中国地质大学，Samaras，D.，Paragios，N.：同时铸造阴影，照明和几何推理使用超图。IEEE Transactions onPattern Analysis and Machine Intelligence（2013）23. Ronneberger，O.，P.Fischer，Brox，T.：U-网：用于生物医学图像分割的卷积网络在：医学图像计算和计算机辅助干预国际会议论文集（2015）24. Shrivastava，A.，Pfister，T.，Tuzel，O.，Susskind，J.，王伟，Webb，R.：通过对抗训练从模拟和无监督图像中学习。在：IEEE计算机视觉和模式识别会议（2016年）25. Sunkavalli，K.，Matusik，W.，Pfister，H.，Rusinkiewicz，S.：定时拍摄的视频ACM SIGGRAPH计算机图形学会议论文集（2007）26. Tram`er，F.， Kurakin，A.， Paper not，N.，上帝保佑，我， Boneh、D. ，McDaniel，P. ：对抗训练：攻击和防御。在：国际学习代表会议论文集（2018）27. 维森特，T.F.Y.，Hoai，M.，萨马拉斯，D.：用于阴影检测的留一核优化。在：计算机视觉国际会议论文集（2015）28. 维森特，T.F.Y.，Hoai，M.，萨马拉斯，D.：不熟悉领域中阴影检测的噪声标签恢复IEEE计算机视觉和模式识别会议论文集（2016）29. 维森特，T.F.Y.，Hoai，M.，萨马拉斯，D.：用于阴影检测和去除的留一核优化。 IEEE Transactions on Pattern Analysis and Ma-chineIntelligence40（3），68 230. 维森特，T.F.Y.，侯湖余总Hoai，M.，萨马拉斯，D.：大规模训练阴影检测器与噪声注释阴影的例子。在：欧洲计算机视觉会议论文集（2016）31. 沃尔皮河Morerio，P. Savarese，S.，穆里诺，五：用于无监督域适应的对抗特征增强。在：IEEE计算机视觉和模式识别会议论文集（2018）32. 王杰，Li，X.，Yang，J.：用于联合学习阴影检测和阴影去除的堆叠条件生成对抗网络。在：IEEE 计算机视觉和模式识别会议论文集（2018）33. Wehrwein，S.，Bala，K.，Snavely，N.：照片集中的阴影检测和太阳方向。电影Proceedings of 3DV（2015）34. Xie，C.，中国科学院，王杰，张志，Zhou，Y.，（1996年），中国科学院，谢伊湖，加-地Yuille，A.：用于语义分割和对象检测的对抗性示例在：计算机视觉国际会议论文集（2017）35. 张洪，Cisse，M.，Dauphin，Y.N.，Lopez-Paz，D.：mixup：超越经验风险最小化。在：学习表征国际会议论文集（2018）基于对抗阴影衰减的阴影检测1736. Zhu，J.，Samuel，K.，Masood，S.，Tappen，M.：学习识别单色自然图像中的阴影。在：IEEE计算机视觉和模式识别会议论文集（2010年）

下载后可阅读完整内容，剩余1页未读，立即下载