阴影消除的多上下文嵌入深度网络

176 浏览量更新于2023-10-15 收藏 6.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4067DeshadowNet：一个用于阴影消除的多上下文嵌入深度网络曲良琼1、2、3田建东1、何胜丰4、唐延东1、林森W. H. 刘三1.中国科学院沈阳自动化研究所机器人国家重点实验室;2中国科学院大学;3香港城市大学;4华南理工{曲良琼，田金德，ytang}@ sia.cn，hesfe@scut.edu.cn，rynson. cityu.edu.hk摘要阴影去除是一项具有挑战性的任务，因为它需要检测/注释阴影以及对场景的语义在本文中，我们提出了一个自动和端到端的深度神经网络（DeshadowNet），以统一的方式解决这些问题DeshadowNet设计了一个多上下文架构，其中通过从三个不同的角度嵌入信息来预测输出阴影蒙版。第一全局网络从全局视图提取阴影特征。两个层次的功能是从全球网络和transferred到两个并行的网络。一种方法提取输入图像的应用程序，另一种方法涉及语义理解以进行最终预测。这两个复杂网络生成多上下文特征，以获得具有精细局部细节的阴影蒙版。为了评估所提出的方法的性能，我们构建了第一个大规模的基准与3088图像对。在两个公开的基准测试和我们的大规模基准测试上进行的大量实验表明，该方法与几种最先进的方法相比具有良好的性能。1. 介绍图像中存在的照明变化，特别是阴影，已被证明是各种计算机视觉任务的主要挑战因素之一，例如对象检测和跟踪[6，24]。因此，阴影去除的目的是在给定单个阴影图像的情况下产生高质量的无阴影图像。根据[3，31，21，1]，阴影图像Is可以被认为是无阴影图像Ins和阴影遮片Sm（或阴影比例因子）的逐像素乘积。Is=Sm·Ins，（1）其中阴影遮片Sm表示由阴影引起的照明衰减效应。*通讯作者(a) Image（b）Shadow matte（c）GT（d）Guo[15](e)Arbel[1]（f）Yang[33] （g）Gong[12]（h）Ours图1：与现有阴影去除方法的比较。现有方法无法正确地去除投射在不同语义区域上的阴影（即，水平地面和垂直干线）。等式1中，阴影去除过程被变换为估计输入阴影图像的阴影遮片。大多数现有的方法都遵循这个公式来解决阴影去除问题[31，21，1，15，12，19]。尽管取得了成功，但这些方法都有以下三个局限性。缺乏全自动和端到端的管道。现有的阴影蒙版估计方法需要阴影位置的先验信息。它可以从阴影检测[15，19]或用户输入[31，1，14，12，34]中获得。然而，阴影检测本身是一项具有挑战性的任务。传统的阴影检测方法要么缺乏稳健的阴影特征[35，20，15]，要么只能应用于高质量图像[8，30]。由于训练数据量有限，最近的基于深度学习的方法[26，19]仅限于小型网络架构。需要高级语义信息。现有工程主要采用低层次的设施（例如：颜色比率[15，12]或颜色统计[31，19]）来计算阴影蒙版。然而，阴影遮片也与语义内容密切相关（例如，几何形状和材料）。如图在图1A至1C中，两个语义区域（水平地面和垂直躯干）上的阴影遮片值明显彼此不同，因为这两个语义区域的光强度不同。不幸的是，现有的方法[1，15，12]不考虑这种语义4068图2：DeshadowNet的架构。DeshadowNet由三个协作子网络组成：全局定位网络（G-Net）、外观建模网络（A-Net）和语义建模网络（S-Net）。这三个子网络用不同的颜色标记。信息，导致不满意的结果（图。1d至1g）。需要对半影区域进行特定操作。由于阴影蒙版的内容在本影和半影区域中可能不同，因此先前的方法通常采用用户提示[5，31]或分类（例如，双向搜索[12]和阈值操作[19]）以分离它们。然而，自动识别本影和半影区域是困难的，特别是对于一些复杂的背景或微小的阴影（例如，树叶的阴影在本文中，我们的目标是探索在端到端和全自动的框架中消除阴影，以解决上述问题。与检测阴影、对本影/半影区域进行分类、然后去除阴影的常规流水线相比，我们将这些步骤统一为一个步骤，并直接学习阴影图像与其阴影遮罩之间的映射函数，然后可以使用该映射函数来恢复具有等式（1）的无阴影图像。1.为此，我们提出了一种新的用于阴影去除的深度神经网络，称为DeshadowNet。该方法采用多上下文嵌入机制，在最终预测中综合了图像的高层语义信息、中层外观信息和多上下文嵌入通过联合训练三个网络来实现，即全局定位网络（G-Net）、外观建模网络（A-Net）和语义建模网络（S-Net）。G-Net提取阴影特征表示来描述场景的全局结构和高层语义上下文。A-Net和S-Net分别从G-Net的较浅层获取外观信息和从较深层获取语义信息，允许使用多上下文信息预测精细阴影蒙版建议的DeshadowNet的结构有三个子网，如图所示。二、为了评估不同的阴影去除算法，我们进一步构建了一个新的具有挑战性的大规模阴影去除数据集（SRD）1。它包含3088个阴影和无阴影图像对。2. 相关工作用于阴影去除的现有方法通常包括两个步骤：阴影定位和阴影去除。这些方法首先通过阴影检测[15，19]或用户注释[1，14，12，34]定位阴影区域。然后设计了两种具有手工制作特征的重建算法，用于从本影和半影区域去除检测到的阴影。然而，阴影检测本身是一项具有挑战性的任务。传统的基于物理的方法只能应用于高质量的图像，而基于统计学习的方法依赖于手工制作的特征[12，29，19]。最近，Khan等人。[19]和Shen等人。[26]利用卷积神经网络（CNN）的表示学习能力来学习阴影检测的层次特征。由于训练数据量有限，这两种基于深度的方法仅限于小型网络架构。此外，由于它们以分片方式应用CNN，因此需要全局后处理步骤来产生一致的预测（例如，最小二乘优化[26]和CRF [19]）。相反，DeshadowNet具有完全卷积的架构，可以进行端到端、像素到像素的训练，以产生准确的阴影1有关SRD数据集，请参阅http://vision.sia.cn/ourteam/JiandongTian/JiandongTian.html。4069马特斯图3：SRD中几个捕获的阴影和无阴影图像对的图示3. 一种新的阴影消除数据集即使确定了阴影区域，阴影的去除仍然是不平凡的。现有方法在梯度域[9，10，23，21]或梯度域中去除阴影。图像强度域[1，15，12，19]。Finlayson等人。[9，10]通过将物理推导的光照不变图像与原始RGB图像进行比较来检测阴影边缘，然后提出一系列基于梯度域的阴影去除方法。这些基于梯度的方法仅修改阴影边缘或半影区域中的梯度变化，并且因此不适用于具有光照变化的本影区域。另一方面，基于强度域的阴影去除方法采用用户提示[5，31，1]或分类[15，12，19]以确定本影/半影区域。然后使用不同的低级特征分别估计本影/半影区域的阴影蒙版。给定用户注释的阴影区域，Arbel和Hel-Or[1]使用马尔可夫随机场确定半影区域，然后在阴影区域中拟合光滑薄板表面模型以产生近似阴影蒙版。Khan等人。[19]首先用两个单独的CNN检测阴影，然后根据梯度强度变化对本影/半影区域进行分类。最后，他们提出了一个贝叶斯公式来提取阴影蒙版。Gryka等人[14]提出了一种基于随机森林的方法来建模阴影图像区域及其阴影蒙版之间的关系，而不是使用手工制作的特征来估计阴影蒙版。虽然它是一个数据驱动的方法，它需要准确的阴影注释和阴影蒙版的初始猜测作为输入。最终预测高度依赖于初始阴影蒙版。只有少数作品专注于以端到端的方式获得无阴影图像。它们通过固有图像分解恢复无阴影图像，并排除了阴影检测的需要[28，33，2，25]。严格地说，这些基于固有图像的方法可能不被认为是阴影去除方法，因为它们可能会改变非阴影区域的颜色（见图1）。第1f段）。在本文中，我们提出了一个统一的多上下文框架，嵌入阴影的局部化的阴影遮片预测。提出的DeshadowNet可以很好地保留非阴影区域的颜色第1h段）。虽然阴影去除问题已经研究了几十年，但用于此目的的公开可用数据集仍然有限。其中，最广泛采用的阴影去除数据集是[15]，它只包含76个阴影/无阴影图像对。为了便于评估阴影去除方法，我们构建了一个大规模的数据集，称为SRD，其中包含3088阴影和无阴影图像对。据我们所知，SRD是第一个用于阴影去除的大规模基准为了构建我们的数据集，我们使用带有三脚架和无线遥控器的佳能5D相机我们使用固定的曝光参数设置手动捕获模式来捕获阴影图像，其中阴影由不同的对象投射。然后，我们移除阴影源以捕获相应的无阴影图像。这些布置使两个捕获图像之间的照明差异最小化。我们在以下四个方面丰富了建议数据集的多样性：• 照明：我们在不同的光照条件下拍摄阴影图像，包括硬阴影和软阴影。在数据集中。具体来说，我们在阴天和晴天以及一天中的不同时间（例如，黎明、上午、中午、下午、黄昏）。例如图3、前两个是硬阴影图像，第3到第5个是软阴影图像。• 场景：我们从各种场景中捕捉阴影图像，例如公园，校园，建筑物，街道，山脉和海滩。• 反射率：我们在不同的语义对象上投射阴影，以获得不同的反射现象。图中第6、7幅图像.3展示了两个例子。• 轮廓：我们使用各种形状和几何形状的遮挡器来投射不同轮廓和半影宽度的阴影图4和图5分别是两幅图像.3举两个例子。4. 该方法所提出的多上下文嵌入深度网络，称为DeshadowNet，如图所示。二、它旨在学习A4070(a)（b）（c）（d）（e）（f）（g）图4：拟议网络的中间结果的可视化。(a)示出了原始阴影图像，并且（g）示出了从等式（1）获得的阴影遮罩。1和原始图像对。(b)显示了G-Net的Conv 3层的一些示例特征图，通过A-Net产生（d），它编码了阴影区域的外观信息。(c)显示了G-Net的Conv 5层的一些示例特征图，它们通过S-Net产生（e），对阴影区域的语义信息进行编码。最终预测的阴影遮罩（f）嵌入多上下文信息。阴影图像和阴影蒙版之间的映射函数。在本节中，我们首先讨论DeshadowNet的动机和架构，然后介绍训练过程的细节。4.1. 多上下文卷积体系结构我们的想法是，一个准确的阴影蒙版估计方法需要从全局的角度来理解图像内容因此，在DeshadowNet中，我们通过设计三个协作网络来实现这两个想法。第一种网络G-Net以阴影图像为输入，提取阴影特征表示，描述场景的全局结构和高层语义信息。另外两个网络，A-Net和S-Net，分别从G-Net的较浅层获取外观信息和从较深层获取语义信息，便于使用多上下文信息进行精细阴影蒙版的预测。G-Net：全球本地化网络。G-Net是在VGG 16网络的基础上构建的[27]，该网络最初是为对象识别而设计的。最近的研究表明，在图像分类任务中使用大量数据训练的CNN可以很好地推广到数据集和任务，如语义分割和深度预测[11，22，7]。因此，我们采用了预先训练的VGG16模型的卷积层[27]，并将其特征表示转移到阴影蒙版预测任务中进行微调。VGG 16网络包含13个3×3卷积层（5个卷积块）和3个全连接层。层，以及五个最大池化层和子采样层。这五个卷积组和空间池大大增加了网络的感受野，因此能够提取全局上下文和语义信息。场景的形成。然而，这五个最大池化层在网络中引入了32个像素的步幅，使得最终的预测图粗糙。因此，我们没有直接应用原始的VGG16架构，而是在最后两个最大池化层中将池化步长设置为1，以获得更密集的预测。除了这个修改，我们还将VGG16网络中的全连接层替换为1×1卷积层[22]，然后是反卷积层（见图1）。2）的情况。这些1×1卷积层使我们的网络能够以完全卷积的方式运行。A-Net：外观建模网络/S-Net：语义建模网络。在用G-Net提取全局阴影特征后，我们设计了两个并行互补的网络（A-Net和S-Net）来预测具有多上下文特征的精细阴影蒙版。在G-Net中，每个卷积块后面都有一个最大轮询层，因此每个卷积块都有一个逐渐变大的感受野。G-Net的更深层擅长捕获高级语义上下文，但由于所产生的粗糙特征而导致精确定位较差。而较浅的层，捕获更多的本地外观信息，不能注入上下文信息到最终的预测。为了更好地定位阴影区域和预测阴影蒙版的细节，我们进一步设计了一个多上下文机制，用于局部细节细化。利用该机制，从G-Net导出两个级别的特征并将其传输到两个并行网络（即，A-Net和S-Net）。具体而言，虽然A-Net从G-Net的较浅层获取外观信息，以帮助使用局部图像细节对阴影图像的外观进行建模，但S-Net从G-Net的较深层提取语义信息，以在最终预测中提供语义然后，这两个网络与卷积层集成。图4显示了一些中间结果的建议4071表1：模型架构。它以分辨率为8n×8n的阴影图像作为输入，并输出相同大小的阴影蒙版，其中n是任意自然数。在该表中，我们设置n=56（即，输入大小为224×224）。层联系我们convs2convs3convs4convs5Decv2-1Decv3-1G-netconv数量通道数滤波器大小Conv.stride零填充池大小池步长输出大小2643 ×3112 ×22112 ×11221283 ×3112 ×2256 ×5632563 ×3112 ×2228 ×2835123 ×3112 ×2128 ×2835123 ×3112 ×2128 ×2812568 ×842--112 ×11212568 ×842--112 ×112层conv2-1（conv3-1）conv2-2（conv3-2）conv2-3（conv3-3）conv2-4（conv3-4）conv2-5（conv3-5）conv2-6（conv3-6）Decv 2 -2（12月3 -2日）A-Net（S-Net）通道数过滤器尺寸转换stride零填充池大小池步长输出大小969 ×9143 ×32112 ×112641 ×11---112 ×112645 ×512--112 ×112645 ×512--112 ×112645 ×512--112 ×112645 ×512--112 ×11234 ×421--224 ×224网络通过用图1中的中级外观信息进行馈送，4 b，A-Net以粗略尺度预测阴影遮片，但帮助对阴影遮片的外观进行建模（例如，袋和壁的颜色值）。另一方面，S-Net在高级语义上下文（例如，语义对象和阴影图。第4c段）。它可以以精细尺度预测阴影遮片（例如，图中的精细对象边界。4e与图相比。第4d段）。这些预测的中间阴影遮罩表明，较浅层和较深层的卷积特征根据Eq。3.第三章。然后，我们的目标是学习一个映射函数，该函数推断阴影图像与其阴影蒙版之间的关系：Sm=F（Is，Θ），（4）其中Θ表示深度网络的学习参数我们采用均方误差（MSE）作为对数空间中的损失函数来训练我们的模型：1克ER在预测最终阴影遮片方面是互补的。L（Θ）=<$log（F（Ii，Θ））−log（Si）<$，（5）我们将在实验部分进一步分析不同子网络的有效性。为了避免过拟合问题并实现最佳局部最小值，在每个卷积层之后应用drop-out，并且网络中的所有整流线性单元（ ReLU ）都被替换为参数整流线性单元（PReLU）[17]。与ReLU相比，PReLU的系数是自适应学习的，并定义为：S MKi=1其中K是一个批次中训练样本的总数。我们使用随机梯度下降（S-GD）与反向传播的损失最小化。培训战略。虽然性能随着网络深度的增加而显着提高，但由于网络的复杂性，训练一个非常深的网络是一项不平凡的任务梯度消失/展开问题的稳定性[4]）。p（xi）=.X1，AXI，xi≥0xi0，（2）<在本文中，我们采用以下四种策略来快速收敛并防止过拟合：其中xi是通道处激活函数p的输入i，a是学习参数。4.2. 培训阴影图像Is和其阴影遮片Sm的关系由等式给出。1.在训练过程中，我们将它们转换为日志空间：log（Is）= log（Sm）+log（Ins）。（三）给定阴影和无阴影图像对，我们首先计算相应的地面实况阴影蒙版Smaccount。40721. 多阶段培训战略。我们用两个阶段训练DeshadowNet。首先分别训练表观流和语义流（G-Net+A-Net和G-Net+S-Net）。这两个流然后连接到卷积层，并且所有三个网络都被联合优化。2. 多规模培训战略。DeshadowNet的完全卷积方式使我们的模型能够在分辨率为8n×8n的图像上进行训练。为了向网络注入尺度不变性[16]，我们采用多尺寸训练策略，通过输入三种尺寸的图像：4073表2：使用RMSE的定量结果（越小越好）。阴影和无阴影图像之间的原始差异报告在第三列中。最好和第二好的结果分别用红色和蓝色标记数据集不同区域原始Guo等人[第十五条]Yang等人[33个]Gong等人[12个]Gryka等人[14个]Khan等人[19个]我们阴影4213.921.611.813.912.19.6[第15话]非阴影4.65.420.34.97.65.14.8所有13.77.420.66.69.16.85.9阴影44.4531.5823.3522.27--14.21LRSS[14]非阴影4.14.8719.354.39--4.17所有17.7313.8920.7010.43--7.56阴影42.3829.8923.4319.58--11.78SRD非阴影4.566.4722.264.92--4.84所有14.4112.6022.578.73--6.64表3：使用SSIM的定量结果（越大越好）。阴影和无阴影图像之间的原始差异报告在第三列中。最好和第二好的结果分别用红色和蓝色标记数据集不同区域原始Guo等人[第十五条]Yang等人[33个]Gong等人[12个]Gryka等人[14个]我们阴影0.62270.92280.87570.95510.94180.9751[第15话]非阴影0.98610.98110.92300.98390.96950.9859所有0.89750.96690.91140.97690.96270.9832阴影0.61940.79050.88140.8723-0.9518LRSS[14]非阴影0.98820.98130.92260.9863-0.9888所有0.86370.91690.90870.9478-0.9763阴影0.54030.73810.86010.8695-0.9487SRD非阴影0.98430.96850.87350.9790-0.9823所有0.86870.90870.87000.9509-0.9735粗比例尺64×64，中比例尺128×128，精细比例尺224 ×224。3. 数据合成。为了防止过拟合和提高网络的鲁棒性，我们在大规模合成阴影去除数据集上对所提出的方法进行预训练。与[14]类似，我们应用计算机图形技术来合成阴影和无阴影图像对。我们使用真实光源配置Maya，以将光线投射到遮挡对象上，从而投射-在投影平面上生成阴影。通过改变光源、遮挡物和投影平面，我们绘制了60，000个640×480阴影/无阴影图像对我们随机改变光源的形状和有256个分段的[13]中的对象用作遮挡对象。最后，我们从互联网上收集了1000多幅真实图像（无阴影）作为投影平面。4. 数据扩充。我们使用三种不同的操作来增强训练数据：图像平移、翻转和裁剪。实施. 我们已经使用Caffe实现了DeshadowNet [18]。本文中描述的所有网络都是在一台 NVIDIA TeslaK40m上训练和测试的拟议的网络需要3至5周的培训，收敛 DeshadowNet的详细配置是表1所示A-Net和S-Net中的滤波器权用随机高斯变量初始化（平均值μ=0，标准差σ=0）。001）的情况下。我们将动量设置为0.9，权重衰减设置为0.0005进行训练。G-Net的学习率设置为10−5。网络其余部分的学习率设置为10−4，并在训练过程中逐渐降低总的来说，所提出的DeshadowNet速度很快，仅需0.3s即可重新覆盖分辨率为640 ×480的无阴影图像。5. 实验在本节中，我们将DeshadowNet与公开可用的UIUC数据集[15]和LRSS数据集[14]以及我们提出的SRD数据集上的几种最先进的阴影去除方法进行了广泛的比较。UIUC数据集[15]。它包含76个阴影和无阴影图像对。我们使用所有这些图像进行测试。LRSS数据集[14]。它包含37个图像对。它是专门设计来评估软阴影去除的性能。LRSS主要包含具有不同半影宽度的阴影。我们使用所有这些图像进行测试。SRD数据集。我们的新数据集包含3088个图像对。我们将其随机分为两部分：2680张用于训练，其余408张用于测试。比较方法。我们将所提出的De-shadowNet与五种最先进的方法进行比较：三种自动方法[15，33，19]和两种交互方法[12，14]（需要阴影和非阴影注释4074[12]第15届中国国际纺织品展览会（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款（g）图5：不同方法对不同类型阴影的图像的阴影去除结果。相对于不同区域（阴影、非阴影和整个图像）的RMSE误差标记在每个图像的左上角区域）。为了公平比较，我们使用作者提供的公开源代码[15，33，12]或论文[19，14]2中报告的定量/定性结果。请注意，[19]和[14]仅报告了它们在UIUC数据集上的性能[15]。5.1. 性能比较根据[15]和[32]中的设置，我们采用LAB颜色空间中的均方根误差（RMSE）和结构相似性指数（SSIM）作为评价指标。RMSE直接测量重新覆盖图像和地面实况图像之间的每像素误差，SSIM则直接测量重新覆盖图像和地面实况图像之间的每像素误差。[2][14] 的无阴影结果来自他们的项目网站：http://visual.cs.ucl.ac.uk/pubs/softshadows/。siders结构信息，这是更符合人类的视觉感知。表2和表3报告了UIUC数据集[15]、LRSS数据集[14]和建议的SRD 测试数据集上不同阴影去除方法的RMSE和SSIM值。我们评估了不同方法在阴影区域、非阴影区域和整个图像上的性能。我们可以看到，所提出的Deshad-owNet实现了所有的COM的方法和数据集的最佳性能。在图5中，我们显示了不同方法的一些定性阴影去除结果，标记了不同区域（阴影，非阴影和整个图像）的RMSE误差前三行4075表4：De-shadowNet中不同子网络的有效性（通过UIUC数据集上的RMSE测量[15]）。区域S-net G-Net+A-Net G-Net+S-Net DeshadowNet阴影14.211.8510.39.6非阴影5.855.044.824.8所有7.906.76.25.9(Fig.图5a、5b和5c）包含投射在不同语义区域上的阴影。郭[15]和龚[12]都可能在特定的语义区域上表现得很好，但无法消除其他语义区域上的阴影。例如图5b，Guo [15]在地面上完全消除阴影，但在盒子表面上失败。作为对比，所提出的DeshadowNet通过整合多上下文信息和局部图像细节在这些情况下工作得很好。图中的图像图5d和5e包含具有广泛变化的半影宽度的阴影现有的方法[15，12]很难准确地检测这些阴影。如图5d，郭[15]未能检测到软阴影。即使在[12]中完美地检测到阴影（通过用户注释），由于难以从该图像中自动识别本影和半影区域，因此无阴影图像的恢复仍然不令人满意。Yang[33]可以在没有阴影检测的情况下直接获得无阴影图像，但它也改变了非阴影区域的颜色。图5f和5g示出了不同方法在更复杂情况下的结果，即，投射在多个语义区域上的阴影（例如，砖，墙，和泰迪熊）在图。5F和图中高度复杂的阴影。5克。这些定量和定性的比较结果表明，所提出的DeshadowNet可以有效地恢复高质量的阴影图像从阴影图像，即使阴影投射在不同的语义区域。5.2. 成分分析我们的DeshadowNet由三个子网络组成，即，G-Net、A-Net和S-Net。为了进一步分析不同子网络的有效性和必要性，我们训练了DeshadowNet的三个变体模型，并在UIUC阴影数据集上进行了一系列实验[15]。这三种变体型号是：仅使用S-Net（或A-Net，因为没有G-Net的特征图，A-Net在架构上与S-Net相同）的模型，使用G-Net和A-Net的模型，以及使用G-Net和S-Net的模型。表4显示了这三个模型在UIUC数据集[15]上的阴影去除性能，以RMSE测量我们可以看到，这三个模型中没有一个比DeshadowNet表现更好在去除G-Net后，单独使用S-Net的性能相对较差，阴影区域的RMSE误差为14.2，而G-Net+ S-Net的RMSE误差为10.3。这证明了嵌入机制在我们的网络中的有效性，其中G-Net提供了AP-分别为A-Net和S-Net提供了语义上下文和语义信息图 6 定性地比较了这三种模型。如图所示， G-Net+S-Net通过高级语义上下文和局部图像细节来预测更准确的阴影。6便士另一方面，G-Net+A-Net将局部图像细节与来自G-Net的中级外观信息相结合，以粗略的尺度预测阴影遮片，但有助于对阴影遮片的外观进行建模（即，图6c在阴影遮片中获得比图6b更精确的值。6d但粗分割）。因此，在DeshadowNet中，这些多个上下文信息被合并用于精细和准确的阴影蒙版预测。(a)影子（b）S-Net（c）G+A（d）G+S（e）最终（f）结果图6：去阴影网中不同子网的有效性从左至右：（a）阴影图像，由（b）S-Net、（c）G-Net+A-Net、（d）G-Net+S-Net 和（ f） DeshadowNet 预测的阴影遮罩;（g）DeshadowNet的最终阴影消除结果。6. 结论在本文中，我们提出了一个端到端的Deshad-owNet从一个单一的阴影图像恢复阴影的图像。与需要阴影检测或用户注释的传统管道不同，DeshadowNet将这些步骤统一为一个步骤，并直接学习阴影图像及其阴影蒙版之间的映射函数它不需要单独的阴影检测步骤，也不需要任何后处理细化步骤。因此，DeshadowNet能够适应半影宽度变化很大的阴影，并且能够很好地处理投射在不同语义区域上的阴影。提出的多上下文嵌入网络融合了高层语义上下文、中层感知信息和局部图像细节，为底层计算机视觉任务的研究提供了在未来，我们将调整和扩展这种多上下文嵌入网络，以处理其他复杂的照明变化任务（例如，突出显示、除雨和除雪）。致谢本工作得到了国家自然科学基金的部分资助。61473280、61333019和91648118。作者还感谢中国科学院青年创新促进会的支持.本研究亦获得澳门特别行政区科技发展基金（010/2017/A1）的部分资助4076引用[1] E. Arbel和H.赫尔阴影消除使用强度表面和纹理锚点.IEEE TPAMI，33（6）：1202[2] J. T. Barron和J.马利克形状、照明和阴影的反射。IEEETPAMI，37（8）：1670[3] H. Barrow和J.特南鲍姆恢复固有场景特征。Comput.目视系统：A Hanson E. Riseman（编辑），第3-26页[4] Y. Bengio，P. Simard，and P.弗拉斯科尼用梯度下降法学习长期依赖关系是困难的。IEEE神经网络事务，5（2）：157[5] Y.-- Y.庄湾Curless，D. H. Salesin和R.塞利斯基数字抠图的贝叶斯方法。见CVPR，第2卷，第II-264页[6] R. 库基亚拉角格拉纳湾Piccardi和A.普拉蒂检测视频流中的移动对象、重影和阴影IEEE TPAMI，25（10）：1337[7] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。在NIPS，第2366-2374页[8] G. D. Finlayson，M. S. Drew和C.陆熵最小化，阴影消除。IJCV，85（1）：35[9] G. D. Finlayson，S. D. Hordley和M. S. Drew.去除图像中的阴影。ECCV，第823-836页，2002年[10] G. D. Finlayson，S. D.霍德利角Lu和M. S. Drew. 关于去除图像中的阴影。IEEE TPAMI，28（1）：59[11] L. A. Gatys，A. S. Ecker和M.贝丝使用卷积神经网络进行图像风格在CVPR中，第2414[12] H. Gong和D.科斯克交互式阴影消除和地面真理的可变场景类别。在BMVC中。巴斯大学，2014年。[13] G. Griffin，A. Holub，和P.佩洛娜加州理工256目标分类数据集。2007年[14] M. Gryka，M. Terry和G. J·布罗斯托学习去除柔和阴影。ACM TOG，34（5）：153，2015。[15] R.郭角，澳-地Dai和D.霍伊姆用于阴影检测和去除的配对区域。PP（99）：1[16] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔参见ECCV，第346-361页[17] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在ICCV，第1026-1034页[18] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构. 第22届ACM国际多媒体会议论文集，第675-678页。ACM，2014年。[19] S. H.汗，M。贝纳蒙F. Sohel和R.托涅里单幅图像中金阴影的检测与去除. IEEE TPAMI，38（3）：431[20] J. - F. Lalonde、A. A. Efros和S. G.纳拉希姆汉检测户外消费者照片中的地面阴影。见ECCV，第322-335页。2010年。[21] F. Liu和M.格莱歇纹理一致的阴影消除。见ECCV，第437-450页[22] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在CVPR，第3431[23] A. Mohan，J.Tumblin和P.乔杜里编辑数字照片中的软IEEE Computer Graphics and Applications，27（2）：23[24] S. Nadimi和B.巴努视频中运动阴影和目标检测IEEETPAMI，26（8）：1079[25] L. Qu，J. Tian，Z. Han和Y.唐彩色光照不变无阴影图像的逐像素正交分解。Optics express，23（3）：2220[26] L.沈，T. Wee Chua和K.莱曼结构化深度边缘检测的阴影在CVPR中，第2067- 2074页[27] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。[28] M. F. Tappen，W. T. Freeman和E. H.阿德尔森从单个图像中恢复固有图像。IEEE TPAMI，27（9）：1459[29] J. Tian、X.齐湖，加-地Qu和Y.唐新的光谱比特性和特征的阴影检测。模式识别，51：85[30] J.Tian和Y.唐每个通道的线性像素值从一个表面进出阴影及其应用。在CVPR，第985-992页[31] T.- P. 吴角K. 唐，M。S. 布朗和H.-Y. 沈自然阴影。ACM TOG，26（2）：8，2007.[32] Y. Xiao、肖氏E. Tsougenis和C.- K.唐单幅rgb-d图像的阴影去除在CVPR中，第3011[33] Q. Yang，K. Tan和N.阿胡佳使用双边滤波去除阴影.IEEE TIP，21（10）：4361[34] L.张，智-地Zhang和C.萧阴影消除器：基于光照恢复优化的图像阴影去除。IEEE TIP，24（11）：4623[35] J.Zhu，K. G. Samuel，S. Z. Masood和M. F.塔彭学习识别单色自然图像中的阴影。在CVPR，第223-230页

下载后可阅读完整内容，剩余1页未读，立即下载