半监督阴影检测的多任务均值教师模型

59 浏览量更新于2023-10-25 收藏 2.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1一种用于半监督阴影检测的多任务均值教师Zhihao Chen1，Xiang，Lei Zhu2，1 Xiang，Liang Wan1†，Song Wang1 ，3，Wei Feng1，andPheng-Ann Heng2，41天津大学2香港中文大学计算机科学与工程系3南卡罗来纳大学计算机科学与工程系4中国科学院深圳先进技术研究院深圳摘要现有的阴影检测方法由于依赖于有限的标记数据集而受到为了提高阴影检测的性能，本文提出了一种多任务的平均教师模型的半监督阴影检测，利用未标记的数据和探索学习的多种信息的阴影，输入图像地面实况我们的方法DSD[41]CVPR'2019BDRAR [43]ECCV与此同时。具体来说，我们首先建立一个多任务基线模型，通过利用它们的互补信息来同时检测阴影区域、阴影边缘和阴影计数，并将该基线模型分配给学生和教师网络。在此之后，我们鼓励来自学生和教师网络的三个任务的预测保持一致，以计算未标记数据上的一致性损失，然后将其添加到来自多任务基线模型预测的标记数据上的监督损失。在三个广泛使用的基准数据集上的实验结果表明，我们的方法始终优于所有比较的最先进的方法，这验证了所提出的网络可以有效地利用额外的未标记的数据，以提高阴影检测性能。1. 介绍作为我们日常生活中的一种常见现象，自然图像中的阴影对于提取场景几何形状[29，17]，光线方向[22]，相机位置及其参数[16]具有提示作用，并有利于不同的高级图像理解任务，例如，图像分割[4]、对象检测[2]和对象跟踪[27]。对于这些应用，我们需要高精度地从图像中检测阴影现有的方法通过开发颜色和照明的物理模型来检测阴影[6，5]，通过使用数据驱动的陈志豪和朱磊是本书的第一作者†通讯作者图1：阴影检测在两个输入与软阴影（第一行）和多个阴影区域（第二行）。第3至第5列的结果由我们的方法、DSD [41]和BDRAR [43]产生。显然，我们的方法可以更准确地识别阴影区域，而一些黑暗的区域，以及阴影边界被DSD和BDRAR错误地识别。基于手工制作的特征[13，23，42]或通过从卷积神经网络（CNN）学习判别特征[19，33，28，12，24，43，10，41]的方法虽然最先进的方法已经在基准数据集上实现了高精度[33，42，35，10]，但它们几乎需要足够量的注释数据进行训练，并且这些训练数据通常在有限的场景中捕获。然而，为不同场景创建大型标记数据集Le等人。[24]提出通过削弱原始训练图像的阴影区域来增强训练图像，但我们注意到这些增强的图像往往是假的，并且它们的非阴影背景与原始训练图像上的背景相似，阻碍了泛化能力。与标记数据集相比，在实际应用中，我们可以很容易地收集到大量的未标记阴影图像。因此，非常希望利用附加的未标记数据来提高在利用有限的标记数据进行训练时的阴影检测性能。另一方面，当在各种自然图像上测试现有方法时，我们发现它们可能不...56115612多任务监督损失阴影边缘监理监理阴影区域影子计数标记数据EMA'多任务一致性损失噪声干未标记数据教师网络（ MT-CNN）学生网络（ MT-CNN）SCSCSC图2：多任务平均教师网络（MTMT-Net）的示意图。我们首先开发一个多任务CNN（MT-CNN;参见图3）以相互学习包括阴影边缘检测、阴影区域检测和阴影计数检测的三个任务。然后，我们计算标记数据的多任务监督损失和未标记数据的多任务一致性损失。最后，我们融合监督损失和一致性损失来训练我们的阴影检测网络。忽略小阴影区域，将暗区域误认为阴影，以及由于弱边界而错过不明显或柔和的阴影。这些情况会导致阴影边界不佳，并可能改变阴影区域的数量（见图1）。1）。受多任务学习在许多计算机视觉应用中的成功启发[14，3，18，26]，我们决定在我们的工作中研究阴影区域，阴影边缘和阴影计数的补充信息，以增强全局和细节视图的阴影区域检测具体地，阴影计数检测对阴影区域的总数设置全局约束，而阴影边缘检测对阴影区域的边界设置细节级约束在这方面，我们开发了一个多任务平均教师框架（MTMT-Net），以提高阴影检测性能。我们首先设计了一个多任务CNN，表示为MT-CNN，用于相互学习三个任务（即，阴影区域检测、阴影边缘检测和阴影计数检测），并将该MT-CNN模型同时作为学生网络和教师网络。然后，我们提出了一个监督的多任务损失的标记数据整合监督损失的所有三个任务。然后，我们在所有未标记的数据上分别强制学生网络和教师网络的三个任务的结果是一致的。通过添加来自开发的MT-CNN的监督损失和来自三个任务的一致性损失来训练模型，我们的网络可以比最先进的方法更准确地检测阴影区域。我们的主要贡献概述如下：• 首先，我们开发了一个多任务 CNN （ MT-CNN），通过同时检测阴影区域，阴影边缘和阴影计数从单个输入图像的阴影检测。MT-CNN在标记数据上的阴影检测效果只有阴影检测任务。• 其次，我们提出设计一个多任务平均教师框架，以融合来自三个预测任务的未标记数据的一致性损失，用于阴影检测。作为一个自集成模型，我们的框架有可能用于开发其他视觉任务的半监督框架，包括显着性检测，边界检测和语义分割。• 最后，我们证明了所提出的网络在三个广泛使用的基准数据集上的表现优于最先进的方法。2. 相关工作传统方法。早期的尝试[6，5，32]探索了照明模型和颜色信息来识别阴影区域，其中大多数仅在高质量和良好约束的图像上工作良好[28，41]。后期数据-驱动策略在注释数据上设计某些手工制作的功能[42，23，7，13，34]，并将这些功能馈送到不同的分类器[42，23，7，13，34]用于阴影检测。虽然实现了准确性的提高，这些策略通常遭受性能下降，在复杂的情况下，手工制作的功能是不足以区分检测阴影区域。基于深度学习的方法。受深度学习在不同视觉任务中的显著进展的启发，已经开发了用于阴影检测的基于卷积神经网络（CNN）的方法，Khan等人。[19]通过构建一个7层CNN来制定第一个将图像像素分类为阴影/非阴影的网络，该CNN从超像素中提取深度特征，然后馈送5613：1×1，向上：起Pred：短连接：阴影区域检测监督：阴影边缘检测监督：阴影计数监督输入图像PredPred1×1，向上Pred1×1，向上PredPred1×1，向上PredPredPred1×1，向上S_fPredPred1×1，向上FC回归东风513×13×64ef5级13×13×64RF5208×208×32东风426×26×64EF426×26×64RF4208×208×32DF352×52×64RF3208×208×32东风2104×104×64EF2104×104×64RF2208×208×32东方1208×208×32EF1208×208×32SCEF352×52×64图3：图3中提出的MT-CNN的示意图。二、以阴影图像作为输入，我们的MT-CNN预测阴影区域图、阴影边缘图和阴影计数（即，阴影区域的数量）;详见第3.1节。的功能，以一个条件随机场（CRF）模型平滑阴影检测结果。Vicente等人[33]学习了图像级阴影先验，并将其与局部图像补丁相结合，以训练基于补丁的CNN来生成阴影掩模。后来，基于生成对抗网络的阴影检测器（称为scGAN [28]）通过在输入图像上制定条件生成器来预测阴影图。一种快速的深阴影检测网络在[8]中，从手工制作的特征中获得阴影先验图，应用块级CNN来预测块的阴影掩模，并结合来自多尺度块的结果来预测整个阴影图。最近，胡等。[12]通过学习方向感知空间上下文特征检测阴影像素。Zhu等人[43]设计了一个递归注意力残差（RAR）模块来组合两个相邻CNN层的上下文，然后制定了两个系列的RAR模块来迭代地整合CNN层上的空间上下文。Le等[24]将阴影检测网络（D-Net）与阴影衰减网络（A-Net）相结合，生成对抗性训练示例。Wang等人。[37]堆叠多个并行融合分支，以在深度监督框架中融合全局语义线索和局部空间细节Zheng等人[41]提出了一种分心感知阴影（DS）模块来预测假阳性和假阴性像素，并将获得的分心特征融合在每个CNN层中进行阴影检测。虽然改进了阴影检测条，但现有方法几乎受到训练其检测网络需要大量具有像素级注释的数据的固有限制虽然ADNet [24]通过削弱阴影区域来增强单个阴影图像的训练图像，但我们认为这些增强的图像往往是假的，并且背景与原始训练图像非常相似，从而导致有限的泛化能力。在本文中，我们利用未标记的数据来帮助阴影检测。为此，我们将多任务学习嵌入到自集成框架中，以强制阴影检测任务的一致性丢失结果表明，我们的方法优于最先进的阴影检测器，如后面的实验部分所述。3. 方法图2显示了所提出的MTMT-Net的工作流程，该网络通过使用平均教师半监督学习来集成标记数据和未标记数据。具体来说，我们通过考虑三个任务来开发多任务卷积神经网络阴影区域检测、阴影边缘检测和阴影计数检测。MT-CNN用于学生网络和教师网络。在训练过程中，将标记数据输入学生网络，并通过融合三个任务损失来计算多任务监督损失。然后，对于未标记的数据，我们从输入图像中生成一个辅助阴影图，并将它们分别馈送到学生网络和教师网络。对这两组预测阴影信息计算多任务一致性损失在测试阶段，我们只利用学生网络来预测输入图像的阴影图。3.1. 多任务卷积神经网络（MT CNN）现有的阴影检测方法虽然取得了显著的效果，但在检测软阴影时，由于弱边界而导致性能下降。他们也倾向于忽视小的阴影区域或错误-3×33×33×31×1乙状1×15614识别暗的非阴影区域，从而可以显著地改变检测到的阴影区域的计数。为了解决这些问题，我们认为，明确考虑阴影边缘和阴影计数是有助于增强阴影区域检测的定位精度和分割质量。在本文中，我们提出了一种多任务CNN（MT-CNN），以端到端的方式在单个网络3 .第三章。3.1.1阴影区域检测给定一个输入的阴影图像，我们首先使用卷积神经网络（在我们的实验中是ResNeXt-101[38]）来生成一组不同尺度的特征图（表示为EF1，EF2，EF3，EF4和EF5）（见图1）。（3）第三章。注意，在用于阴影检测的不同CNN层之间存在互补信息。浅CNN层捕获阴影细节以及许多非阴影细节，而深CNN层忽略大部分非阴影像素并且还错过阴影区域的部分。在这里，我们采用短连接[9]来合并最后四个CNN层的特征图，从而产生四个新的特征图（表示为DF2，DF3，DF4，DF5）。具体地，合并后的特征图DFk，第k个CNN层（k = 2，...，5）计算如下：DFk= Conv （ Concat （ EFk ， . ， EF5））。（一）然后，我们将最浅的特征（EF1）和最深的特征（EF5）合并以生成新的特征图，记为DF1，其用于预测阴影边缘图（参见第3.1.2节）。之后，为了整合阴影边缘和阴影区域信息，我们细化{DF k，k=2，.，通过首先将它们上采样到DF1的空间分辨率，然后逐元素添加DF 1。成品周围的非阴影区域。这促使我们考虑利用边缘知识来提高检测性能。最近的显著性检测器[14，15]也证明了这一点，其中边缘知识有助于提高显著性检测质量。在我们的MT-CNN中，我们将低级CNN特征EF1与最深CNN层的高级特征EF5融合，以产生特征图DF1，然后将其虽然低级别特征EF1捕获足够的阴影边缘信息，但仅用EF1检测阴影边缘是不够的，因为EF1还编码许多非阴影背景细节。另一方面，深层特征EF5具有最大的感受野以有效地抑制非阴影像素。具体来说，DF1是通过对EF1和EF5进行逐元素加法来计算的。3.1.3阴影计数检测通过分析现有阴影检测方法的结果，我们发现三种常见的失败情况：小的阴影区域被遗漏;非阴影区域被错误识别;并且一起错误地检测到附近的阴影区域。这些情况都会导致阴影区编号不准确。因此，我们探索阴影区域的数量，以提高阴影检测性能。检测阴影区域数需要对整个图像有全局的理解。如图 3，我们依靠最深CNN层的EF 5进行检测。具体来说，我们在EF5上应用单个全连接层以获得指示阴影计数的分数（A）。由于阴影区域的数量可能非常大，为了使计算可行，我们设置最大约束Nmax，并根据经验计算标量A作为回归问题：最小值（实际N，最大N）特征图表示为{RF k，k = 2，...，5}，由A=Nmax、（四）RFk= up（DF k）+DF 1。（二）最后，我们从DF2、DF3、DF4和DF5预测四个阴影区域图，从RF2、RF3、RF4和RF5预测四个阴影区域图，以及一个阴影图（在图中表示为Sf）。3）从细化的特征图，其通过逐元素添加产生，即，Σ5其中Nactual表示阴影区域的实际数量，并且我们在工作中根据经验设置Nmax=83.2. 多任务有监督的标记数据丢失对于标记的数据，我们可以有一对输入阴影图像和相应的注释阴影掩模。很自然地，我们将带注释的阴影掩模作为阴影区域检测（GR）的地面真实值。然后我们Sf=Pred（K=2RFk）。（三）在带注释的阴影遮罩上应用Canny运算符[1]以生成边缘图作为阴影预测Pred（·）通过使用三个3×3卷积层、一个1×1卷积层和一个sigmoid激活层[43]来实现。3.1.2阴影边缘检测通过观察阴影图像，我们注意到，对于软阴影，边界可能无法与边缘检测（Ge）。我们进一步观察每个标记的图像，并手动计数阴影区域的数量以获得A（参见等式2）。（4）），其被认为是阴影计数检测（Gc）的基础事实在获得地面真值之后，通过添加阴影区域的监督损失来计算标记图像（x）的多任务监督损失（表示为Ls5615ReReCRecRecRec阴影边缘检测（Ls）和阴影边缘检测（Ls使用时间相关的高斯预热函数，R es（−5（1−t/t2计数检测（Lc），即日期λ：λ（t）=λmaxemax）），其中t表示哪里Ls（x）=Ls+αLs+βLs，（5）Σ9当前训练迭代，tmax是最大训练迭代在我们的实验中，我们根据经验设置λmax=10。我们最小化Ltotal来训练学生网络，Ls= ΦBCE（Pr（j），Gr），j=1Ls= ΦBCE（Pe，Ge），Ls= ΦMSE（Pc，Gc）.（六）每个训练步骤中的教师网络的参数是通过[31]中的指数移动平均（EMA）策略更新。教师网络在第t次训练迭代时的参数为：cθ′=ηθ′+（1−η）θ，（10）这里，Pr（j）表示九个预测阴影图之一，Pe是预测阴影边缘图，并且Pc是预测阴影计数值。ΦBCE和ΦMSE分别是二进制交叉熵损失和MAE损失函数。我们在网络训练中根据经验设置权重α=10和β=13.3. 无标签数据的多任务一致性损失对于未标记的数据，我们将其传递到学生和教师网络中以获得三个任务然后，我们强制学生网络和教师网络的三个任务的预测是一致的，导致多任务一致性损失（Lc）。在数学上，未标记图像的Lc（表示为y）为t t−1t其中θt表示t次训练迭代时的学生网络参数。EMA衰减η根据经验设定为0.99，如[21，31]所示。我们未标记的数据。在我们的工作中，未标记的数据有3424张带有阴影的图像。它由两部分组成：一个是最近阴影消除工作的USR数据集[11]，另一个是我们从互联网上收集的979张图像。USR数据集[11]有2445张阴影图像，没有阴影检测注释。3.5. 培训和测试策略训练参数。为了加快培训进程，为了降低过拟合风险，我们通过ResNeXt [38]初始化MT-CNN（学生网络）的参数，ResNeXt已经为图像分类任务进行了良好的训练哪里Lc（y）=Lc+Lc+Lc2009年。Σ（七）在ImageNet上MT-CNN中的其他参数是初始化为随机值。随机梯度下降（SGD），动量为0。9、一个重量，Lc=j=1ΦMSE Srj，Trj，（八）0的cay。0005用于优化整个网络，一万次迭代。学习率由一个多边形调整Lc= ΦMSE（Se，Te），Lc= ΦMSE（Sc，Tc），其中Lc、Lc和Lc分别表示阴影区域检测、阴影边缘检测和阴影计数检测的一致性损失3.4.我们网络我们将多任务学习与半监督自集成模型应用于阴影检测。我们网络的总损失是策略[25]，初始学习率为0。005和0的幂。9 .第九条。我们将所有标记和未标记的图像调整为416×416，以便在单个GTX 2080 Ti GPU上训练我们的网络，并通过随机hor-izzel翻转来我们使用的小批量大小为6，其中包括4个标记的图像和2个未标记的数据图像。推理。在测试过程中，我们将输入图像调整为416×416，将调整后的图像馈送到学生网络中，并将最右侧的阴影区域检测图（图中的Sf3）作为MTMT-Net的最终输出以下L总计= ΣNi=1Ls（xi）+λΣMj=1Lc（yj），（9）最近的阴影检测网络[43，41]，我们充分应用了连接条件随机场（CRF）[20]，以进一步后处理我们的网络的预测结果。其中N和M是训练集中标记图像和未标记图像的数量。Ls（xi）表示多任务监督损失（等式2）。而Lc（ yj ）是多任务一致性 y 损失（等式（ 5 ））。（7））对于第j个未标记图像。权值λ是为了平衡标记数据上的多任务监督损失和未标记数据上的多任务一致性损失。在[21，31]之后，我们56164. 实验结果在本节中，我们首先介绍了阴影检测基准数据集和评估指标，然后将所提出的MTMT-Net与最先进的阴影检测器以及相关工作（包括阴影去除，显著性检测和语义分割）进行了比较，5617表1：将我们的网络（MTMT-Net）与最先进的阴影检测器进行比较。SBU [33]UCF [42]ISTD [35]方法年BER ↓影子↓非剃须。↓BER ↓影子↓非剃须。↓BER↓影子↓非剃须。↓MTMT-Net（我们的）-3.153.732.57七点四七十点三十一4.631.721.362.08Ours-w/o-CRF-3.15 3.722.588.06 12.233.901.771.162.39DSDNet [41]20193.453.333.58七五九九七四5.442.171.362.98DC-DSPF [37]2019四点九四点七5.10七点九六点五9.30---[43]第四十三话2018三点六四三点四十3.897.81 9.695.942.690.504.87ADNet [24]2018五点三七四点四五6.30九点二五八点三七10.14---DSC [12]2018五点五九九点七六1.4210.54 18.083.003.423.853.00ST-CGAN [35]20188.14 3.7512.5311.234.9417.523.852.145.55美国有线电视新闻网[8]201811.56 15.607.52- -----scGAN [28]20179.10 8.399.6911.50 7.7415.304.703.226.18[33]第三十三话201611.00 8.8412.7613.00 9.0017.108.607.699.23一元配对[7]201125.03 36.2613.80- -----[第30话]20176.96八点九二---EGNet [14]2019四点四九五点二三3.759.20 11.287.121.851.751.95SRM [36]20176.51 10.522.5012.51 21.413.607.9213.971.86护身符[39]201715.13--15.17-----PSPNet [40]20178.57--11.75--4.264.514.02最后报告消融研究结果。我们的代码、模型参数和三个基准数据集上的阴影检测结果已在https://github.com/eraserNut/MTMT 上发布。4.1. 数据集和评估指标基准数据集。我们评价我们方法三个广泛使用的阴影检测基准数据集：SBU [33]，UCF [42]和ISTD[35]：（i）SBU数据集是最大的带注释阴影数据集，包含4，089张训练图像和638张测试图像;（ii）UCF数据集由145幅训练图像和76幅测试图像组成，覆盖室外场景;以及（iii）ISTD是最近开发的用于阴影检测和去除的数据集。它有1，870个阴影图像、阴影贴图和无阴影图像的三元组，其中540个用于测试。与最近的工作类似[12，24，43，41]，对于SBU和UCF，我们通过在SBU训练集和未标记数据集上训练我们的网络来获得评估结果。由于ISTD仅包含与SBU图像不同的投影图像，因此在[41]之后，我们使用未标记的数据在ISTD训练数据集上重新训练我们的方法和大多数竞争对手。SBU的培训时间为1小时，ISTD为0.5小时。我们网络的模型大小为169M. 在测试中，我们的MTMT-Net大约需要0.05秒来处理416×416图像分辨率的图像。评价指标。我们采用一种常用的度量标准，即，平衡错误率（BER），以定量评估阴影检测性能。BER [43，12]同样考虑阴影和非阴影区域的质量，其由下式给出：..ΣΣ1N N阴影图像，分别。小的BER值指示更好的阴影检测性能。4.2. 与最先进的阴影探测器的比较我们与最近的10个阴影检测器进行了比较，包括DSDNet [41]，DC-DSPF [37]，BDRAR [43]，AD-[24]，DSC，ST-CGAN [35]，patched-CNN [8]，scGAN [28]，stacked-CNN [33]和Unary-Pairwise [7]。其中，最后一种方法是基于手工制作的特征，而所有其他方法都是基于深度学习的方法。为了使比较公平，我们通过直接从作者或使用他们的报告在已发表的论文中采用比较方法的可用定量比较。表1总结了不同方法在三个基准数据集上的定量结果。BER分数是阴影和非阴影BER分数的平均值。显然，基于深度学习的方法[33，12，8]的BER值比手工制作的检测器[7]小得多，因为它们可以从注释的训练图像中学习更在基于深度学习的阴影检测器中，DSDNet [41]是第二个性能最好的方法，它显式地学习和整合视觉分心区域的语义以推断阴影。与现有的性能最好的方法相比，我们的方法在SBU，UCF和ISTD上分别降低了8.70%，1.58%和20.7%的BER分数。此外，我们的方法在SBU和UCF的非阴影像素上具有更好的BER分数，在ISTD的阴影像素上具有更好的BER分数。这表明我们的网络预测SBU的阴影像素更多，BER=1−TP+TN×100，（11）UCF，并减少了对非56182NpNn其中，Ntp、Ntn、Np和Nn是图像的真阳性、真阴性、阴影和非阴影像素的数量，ISTD的阴影区域与三种比较方法[43，12，41]一样，我们也使用CRF [20]作为后处理。表1中的第二行显示了我们的5619ReC输入地面我们DSDBDRARDSCscGANpaCNNstCNN图像真理方法[41个][四十三][12个][28日][八]《中国日报》[33个]图4：通过我们的方法和其他方法（第4 - 10列）产生的阴影图与第2列中显示的地面实况的视觉比较请注意，不使用CRF的方法。结果表明，使用CRF获得了一定程度的改善，主要是在UCF数据集上，而没有CRF仍然取得了比大多数最先进的方法更好的性能。目视比较。我们进一步在视觉上比较了由我们的方法和最先进的方法产生的阴影检测图，如图1和图2所示。 4.第一章从结果中，我们可以看到，我们的MTMT-Net（图3的第3列）。4）在所有阴影检测器中性能最好。该算法能有效地定位各种背景下的阴影例如，在第3、第5和第7行，MTMT-Net可以准确地检测阴影区域，而其他MTMT-Net则分别将道路、天空和黑暗的地面误认为阴影。更重要的4.3. 阴影去除、显著性检测和语义分割方法应注意，设计用于阴影去除、显著性检测和语义分割的深度网络可以通过使用带注释的阴影数据集来重新训练用于阴影检测。为了进一步评估我们的方法的有效性Deshad-owNet [30]，三个显著性检测模型，即，SRM [36]，Amulet [39]和EGNet [14]，以及语义分割模型，即，PSPNet [40]上的阴影检测数据集。我们通过重新训练已发布的代码或使用报告的方法来采用比较方法的可用结果。为了进行公平的比较，我们尽最大努力微调它们的训练参数，并选择最好的阴影检测结果。表1中的最后五行报告了它们的BER值。我们看到，这些模型可以实现优越的BER性能优于一些现有的阴影检测器，但仍然比我们的网络。4.4. 消融分析基线网络设计。我们进行消融研究实验，以评估所提出的多任务监督损失（见等式2）。（5））和多任务一致性损失（见等式（5））。（7）我们的MTMT-Net。在这里，我们考虑七个基线网络.前四个基线网络是通过重新移动教师模型来构建的。这意味着只有标记数据上的监督损失才用于训练MT-CNN。具体地，第一基线网络（表示为（5））。第二个（表示为而第三种（表示为“基本+SC”）是添加阴影计数检测监督损失（等式（5（5））。四是将监管失责三项任务融合在一起。另外三个基线网络被用来验证未标记数据上的多任务一致性损失。第一个5620输入图像地面实况我们的方法碱性-MT+SC-MT碱性-MT+SE-MT基础-MT基础+三-任务基本+SC基本+SE基本图5：我们的方法和其他基线网络产生的阴影图的视觉比较（详细信息请参见表2表2：消融分析。这里，“SR”表示阴影区域检测;“SE”表示阴影边缘检测;“SC”表示阴影计数检测;而“MT”则表示刻薄的老师。SBU [33]UCF [42]ISTD [35]网络SrSESCMtBER↓BER↓BER↓基本C×××5.289.572.23基本+SECC××4.078.091.8基本+SCC×C×4.729.342.04基础+三项任务CCC×3.617.642.03碱性MT碱性-MT +SE-MT碱性-MT+SC-MTCCC×C×××CCCC4.493.834.418.297.818.612.121.752.03我们的方法CCCC3.157.341.72（表示为（5））和一致性损失（等式（5）的Lc ）（七））。来自未标记数据的相似性损失导致了优越的阴影检测性能。(iv) “basic-MT+SE-MT” and （v）我们可以发现阴影边缘检测比阴影计数检测对我们方法的成功有更大的贡献，因为（vi）通过设计一个三任务平均教师模型，我们的MTMT-Net在三个基准测试中具有最好的BER性能。目视比较。此外，Fig.（5）直观地比较了MTMT-Net和七个基线网络产生的阴影图。显然，我们的方法可以识别阴影比所有七个基线在两个阴影段-R r第二种（表示为在阴影区域检测和阴影边缘检测中应用均值教师模型，定位质量和定位精度。这证明在一个框架内考虑阴影边缘、阴影计数信息和未标记数据的有效性R e当量（5）以及方程中的Lc和Lc（7）用于训练r e5. 结论网络最后一种（表示为将均值教师模型用于阴影区域检测和阴影计数检测。换句话说，监督损失（等式中的Ls和Ls（5）一致性损失本文提出了一种新的网络单图像阴影检测通过开发一个多任务的平均教师C crc框架。我们的主要想法是首先开发一个多任务（Lr和Lc在等式中）（7）用于网络训练。我们使用SBU训练集和我们的未标记数据来训练所有七个基线网络，以获得SBU和UCF的结果。对于ISTD，我们使用ISTD训练集和未标记的数据来训练所有四个网络，并使用ISTD测试集对其进行测试定量比较。表2总结了我们的网络和七个基线网络在三个基准数据集上的BER值。从结果中，我们得到以下观察结果：（i）“基本+SE”和“基本+SC”具有优于“基本”的BER值，这意味着检测阴影边界和阴影计数可以为阴影检测提供有用的信息。（ii）(iii) “basic-MT” can moreaccurately detect shadow pixels than “basic” due to itssmaller 它表明，额外的控制-用于通过利用阴影区域检测、阴影边缘检测以及阴影计数估计的互补信息来同时预测阴影区域检测、阴影边缘检测以及阴影计数估计的网络。然后，我们采用平均教师半监督学习来利用额外的未标记数据，以进一步提高检测性能。在三个基准数据集上的实验结果表明，我们的网络始终表现出最先进的方法。像其他作品[43，41，12]一样，我们的方法可能不适用于具有多个复杂阴影的图像。重新解决这一具有挑战性的问题被认为是我们未来工作的方向。致谢本课题得到国家自然科学基金项目（No.2005.10）的资助。 61572354 、 61902275 、 61671325 、U1803264、61672376），以及中大研究委员会直接资助研究2018/19。5621引用[1] 约翰·坎尼。边缘检测的计算方法。IEEE Transactionson Pattern Analysis and Machine Intelligence，8（6）：679-698，1986. 4[2] Rita Cucchiara、Costantino Grana、Massimo Piccardi和Andrea Prati 。检测视频流中的 IEEE Transactions onPattern Analysis and Machine Intelligence，25（10）：1337-1342，2003。1[3] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。在ICCV，第2051-2060页，2017年。2[4] Aleksandrs Ecins，Cornelia Fermuller，and Yiannis Aloi-monos. 基于局部密度测度的静止图像无阴影分割在ICCP，第1-8页，2014年。1[5] Graham D Finlayson，Mark S Drew，and Cheng Lu.熵最小化的阴影去除。 International Journal of ComputerVision，85（1）：35-57，2009. 一、二[6] Graham D Finlayson，Steven D Hordley，Cheng Lu，andMark S Drew. 关于去除图像中的阴影。 IEEETransactionsonPatternAnalysisandMachineInteligence，28（1）：59-68，2006. 一、二[7] Ruiqi Guo，Qieyun Dai，and Derek Hoiem.使用成对区域的单图像阴影检测和去除。在CVPR，第2033-2040页，2011年。二、六[8] Sepideh Hosseinzadeh、Moein Shakeri和Hong Zhang。使用补丁卷积神经网络从单个图像进行快速阴影检测。在IEEE/RSJ智能机器人和系统国际会议（IROS），第3124-3129页三六七[9] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip Torr.具有短连接的深度监督显著 IEEE Transactions on Pattern Analysis andMachine Intelligence，41（4）：815-828，2019。4[10] 胡晓伟，傅志荣，朱磊，秦静，和Pheng-Ann Heng。用于阴影检测和去除的方向感知空间上下文特征。IEEETransactionsonPatternAnalysisandMachineIntelligence，2019。出现1[11] Xiaowei Hu，Yitong Jiang，Chi-Wing Fu，and Pheng-Ann Heng. Mask-ShadowGAN：学习从未配对的数据中移除阴影。在ICCV，第2472-2481页，2019年。5[12] Xiaowei Hu ， Lei Zhu ，Chi-Wing Fu ，Jing Qin ， andPheng-Ann Heng.用于阴影检测的方向感知空间上下文特征。在CVPR中，第7454-7462页，2018年。一、三、六、七、八[13] Xiang Huang ， Gang Hua ， Jack Tumblin ， and LanceWilliams.太阳和天空下的阴影边界的特征是什么？在ICCV，第898-905页，2011年。一、二[14] 范登平，杨曹菊峰，杨明明，赵家兴，刘江江。EGNet ：边缘指导网络- 工作的显着对象检测。在ICCV，第8779- 8788页，2019年。二四六七[15] 程家石明、冯建民、姜江、刘江、侯启斌。一个简单的基于池的实时显著目标检测设计。在CVPR中，第3917-3926页，2019年。4[16] Imran N Junejo和Hassan Foroosh。利用阴影轨迹估计静止摄像机的时空位置。见ECCV，第318-331页，2008年。1[17] Kevin Karsch ， Varsha Hedau ， David Forsyth ， andDerek Hoiem. 将合成对象渲染为旧照片。ACM Trans.on Graphics（SIGGRAPH Asia），30（6）：157：1-157：12，2011. 1[18] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在CVPR中，第7482-7491页，2018年。2[19] Salman Hameed Khan ， Mohammed Bennamoun ，Ferdous Sohel，and Roberto Togneri.用于鲁棒阴影检测的自动特征学习。在CVPR，第1939-1946页一、二[20] Phi l ippKr？henb？hl和VladlenKoltun。具有高斯边缘势的全连接CRF中的有效推理在NIPS，第109-117页，2011中。五、六[21] Samuli Laine和Timo Aila用于半监督学习的时间集成arXiv预印本arXiv：1610.02242，2016。5[22] Jean-Franc oisLalonde ， Alex eiAEfros ， andSrinivasaGNarasimhan. 从单个室外图像估计自然光照。在ICCV，第183-190页，2009中。1[23] Jean-FrancoisLalonde ， AlexeiAEfros ， andSrinivasaGNarasimhan.户外消费者照片中地面阴影的检测。ECCV，第322-335页，2010年。一、二[24] Hieu Le，Yago Vicente，F Tomas，Vu Nguyen，MinhHoai，and Dimitris Samaras.A+ D Net：使用对抗性阴影衰减训练阴影在ECCV中，第662- 678页，2018年。一、三、六[25] Wei Liu ， Andrew Rabinovich ， and Alexander C Berg.ParseNet ： Looking wider to see better 。 arXiv 预印本arXiv：1506.04579，2015。5[26] Ishan Misra 、 Abhinav Shrivastava 、 Abhinav Gupta 和Mar- tial Hebert。多任务学习的十字绣网络。在CVPR，第3994-4003页，2016年。2[27] 苏海尔·纳迪米和比尔·巴努视频中运动阴影和目标检测的物理模型。IEEE Transactions on Pattern Analysis andMachine Intelligence，26（8）：

下载后可阅读完整内容，剩余1页未读，立即下载