没有合适的资源?快使用搜索试试~ 我知道了~
LRA LDRA: 残差预测的高效阴影检测和去除
4925LRA LDRA:重新思考残差预测以实现高效的阴影检测和去除2*Bogota3* Bogota3 *Bogota1Samsung Research UK,2CERTH ITI,希腊摘要大多数最先进的阴影去除模型(SRM)重建整个输入图像,其中它们的容量不必要地花费在重建非阴影区域上。预测残差的SRM在一定程度上弥补了这一点,但未能提供准确和灵活的解决方案。在本文中,我们重新思考残差预测,并提出可学习的剩余注意力(LRA)和可学习的密集重建注意力(LDRA)模块,这些模块对SRM的输入和输出进行操作。这些模块引导SRM集中于阴影区域重建,并且限制非阴影区域的重建。这些模块提高了阴影去除(高达20%)和检测精度在各种骨干,甚至提高了其他去除方法的精度( 高达 10%) 。此 外 ,这 些模 块 具有 最 小的 开 销(+1MB内存),并在几行代码中实现。此外,为了应对用小数据集训练SRM的挑战,我们提出了一个合成数据集生成管道。使用我们的管道,我们创建了一个名为PITSA的数据集,它具有比最大的基准数据集多10倍的独特无阴影图像。PITSA上的预训练模型显着提高了阴影去除(阴影区域上的+2 MAE)和多种方法的检测精度。我们的研究结果表明,LRA LDRA,当插入到一个轻量级的架构上预先训练的PITSA,优于国家的最先进的阴影消除(+0.7所有区域MAE)和检测(+0.1BER)的方法对基准ISTD和SRD数据集,尽管运行速度更快(+5%)和消耗更少的内存(×150)。1. 介绍阴影是由于遮挡物和光源之间的相互作用而形成的。阴影强度和位置提供了有用的线索,如照明[36,52,66],几何[32,50,59]和相机信息[31],但也可能损害各种视觉任务,无论是由于可见性差*同等贡献。城市或阴影引起的幻影物体[4,5,9,10,41,45,46、48、75、78]。因此,阴影检测和去除仍然是困难而重要的问题要解决。继早期的方法[3,17,47,70,73]之后,出现了用于阴影检测[82,81,27,79,8,49],去除[39,11,54,16,7,76]或两者的[24,12,65]。我们认为该领域存在两个主要问题:(i)现有方法未能关注阴影区域,以及(ii)可用的数据集非常小。前者导致模型容量的低效使用,而后者损害泛化能力。一个直观的事实是,阴影和无阴影图像的非阴影区域在去除后应该是相同的。因此,在阴影去除期间重建整个输入图像(图1的顶部图)。1)在重建非阴影区域上浪费模型能力。我们还探索了预测残差的模型[44,39,54,24],即阴影和无阴影图像之间的差异(图中的中间图)。①的人。这些方法被鼓励只集中在阴影区域,但往往产生次优的结果。 在本文中,我们重新考虑了堆叠CNN范例中的残差[65],以联合解决检测和去除问题;我们提出了可学习的剩余注意力(LRA)和可学习的密集重建注意力(LDRA)模块,它们对阴影去除模型(SRM)的输入和输出进行操作(图1的下图)。①的人。LRA和LDRA i)引导SRM集中于阴影区域重建,以及ii)辅助最终混合/颜色校正。我们利用SRMLRA LDRA的开销可以忽略不计,它改进了现有的SRM,并且可以跨各种骨干网工作。我们还提出了一个数据集生成管道(见图1)。3)解决数据集大小限制。除了小的现实生活中的基准[65,54,25],较大的合成替代品[29] 但是它们具有有限数量的独特的无阴影图像,这限制了它们的影响。我们用一个可以优雅地扩展的想法来解决这个问题;我们收集图像4926I面具残余我昏迷我影子R移除网络I面具残余L我昏迷我影子R移除网络李图1.不同的阴影去除方法,其中输入图像I阴影和阴影掩模I掩模被级联,并且被馈送到阴影去除模型(SRM)R以产生无阴影输出I_out。上图显示了重建给定图像的普通方法(等式1)。(2)译注。中间的图显示残差预测(等式1)。(3)),其中SRM被宽松地鼓励预测阴影和无阴影图像之间的差异。下图显示了我们的LRA LDRA模块(方程(4))其引导SRM集中于重建阴影区域并执行混合/颜色校正。有关定性比较,请参见图。五、从各种源中,通过自动过滤阴影区域来提取无阴影补丁,并在这些补丁上合成阴影。通过这个管道,我们创建了PITSA,由20K独特的无阴影图像创建的172K三元组组成。我们的研究结果表明,使用PITSA的预训练模型显着提高了各种模型的阴影去除和检测精度。我们认为,PITSA是阴影检测/去除的下一步,由于其规模和品种。我们的贡献如下:• 我们介绍LRA LDRA,帮助引导SRM专注于阴影区域重建和执行混合/颜色校正。LRA LDRA带来了高达20%的改善,比无LRA LDRA SRM基线(包括现有的方法),只有3毫秒的运行时间和1MB的内存开销。• 我 们 提 出 了 一 个 新 的 数 据 集 生 成 流 水 线 和introduce PITSA1,这是在文献中最大的阴影检测和去除数据集使用PITSA的预训练模型在阴影去除(阴影区域上的+2 MAE点)和ISTD上的检测(+0.1 BER)方面引入了显著的改进。• 我们结合了PITSA和LRA LDRA,并提出了一种轻量级的联合阴影检测和去除设计,它在ISTD和SRD数据集上的去除(+0.7全区域MAE)和检测(+0.1 BER)方面优于最先进的技术,尽管明显更小(内存减少150倍),速度更快(+5%)。1我们的数据集将在https://terabox.com/s/1YQh2fc3SZ3prQZ1hJhejjQ上公开提供2. 相关工作阴影检测。早期检测方法使用物理模型[51,55,62,15],用户输入[77,2]和手动检测。[19,13,28,37,80]。端到端解决方案是[64],其中提出了SBU数据集。 Nguyen等人。 [49]扩展了cGAN检测范式。 Le等人。 [40]使用阴影衰减网络来增强数据。Hu等人。 [27]提出以方向感知的方式学习全局图像上下文特征。王等人[65]和丁等人[12]共同解决了检测和去除问题。最近的研究利用多任务学习[8]和强度变化/不变特征[82]。阴影消除。早期的方法使用照明/颜色[3,48,14,42,68,47,58],用户输入[18,17,73]和手-[15,73,71]。使用配对数据的监督方法引起了人们的注意[57,33]。Qu等人。 [54]使用本地化,语义和外观特征,但有一个matting损失。Hu等人将他们的工作扩展到移除[81,24]。 Cun等人。 [11]使用阴影抠图网络来创建新数据,然后使用分层特征聚合进行删除。 Fu等人。 [16]将阴影去除作为自动曝光融合问题,而[39]提出了一种使用三个网络的基于物理的公式。Chen等人 [7]提出了一种两阶段方法,其中他们将非阴影特征转换为阴影特征。在未配对数据上进行训练的方法也已经出现[25,38,43,30,63]。阴影去除中的残差预测。许多去除方法在去除图像的过程中会对图像进行整体重构.由于差异(即阴影和无阴影图像之间残差)理想地仅为I面具我出来R我影子移除网络整个图像重建残余预测我们LRA LDRA4927∼·······阴影区域(实际上,所有现实生活中的数据集都有非阴影区域的错误[39]),预测差异是一个可靠的替代方案。在[24,44,39]中使用了朴素求和方法。Ding等人。 [12]用阴影注意检测器预测残差,然后将这些残差馈送到去除编码器以迭代地去除阴影。Zhang等人。 [76]使用多生成器GAN来预测负残差、反向照明和粗糙去除图像。在我们的工作中,我们建立在现有的残差预测策略。数据集。 早期的数据集,如UCF [80]和UIUC [20]用于删除,是相当小的。ISTD [65]有1.8K三元组(阴影图像,掩模和无阴影图像)用于检测和去除。对于检测,SBU [64]有4.7K(阴影图像和掩模)对。SRD [54]提供了3K(阴影和无阴影图像)对用于删除。USR[25]提供4K未配对图像。最大的检测数据集有10.5K对[26]。合成数据集绕过了标记和采集要求,但受到无阴影图像种类的限制(1.8K唯一无阴影图像,10K阴影蒙版[29])。3. 重新思考残差预测我们首先介绍了阴影检测和去除任务,激励需要更好的模型来执行这些任务,并提出LRA和LDRA模块集成到基线模型,以提高其准确性。3.1. 预赛问题表述。在阴影检测中,我们采用由θD参数化的函数D(;θD)(由深度神经网络(DNN)模型D实现)来检测在图像I阴影上观察到的阴影的位置,I掩模=D(I阴影;θD)(1)数据集。方法使用方程进行整体图像重建。(2)数据集错误;这意味着这些方法i)试图重建非阴影区域,以及i i)它们不能精确地执行该重建。剩余预测。修改后的阴影去除任务可以被投射为仅通过预测相对于输入图像的差异第一章I输出= R(I阴影,I掩模; θR)+I阴影。(三)使用残差预测的方法eqn.(3)在表1中具有较低的误差,但仍遭受次优结果。3.2. LRA LDRA模块为了解决上述问题,我们重新思考/扩展方程的残差预测。(3)通过LRA和LDRA模块(见下图)第一章I输出=LDRA(R(I阴影,I掩模;θR);θLRA)+LRA(I阴影;θLRA)(4)其中LDRA(;θLDRA)和LRA(;θLRA)在图像空间中起作用 注意,等式 3是一个特殊的-Eqn的例子 4,其中,对于LRA和LDRA都采用恒等函数;这就是我们所说的残差预测的重新思考/扩展。具体地,LRALDRA应当i)引导R(θR)聚焦于阴影区域,以及ii)执行混合/颜色校正。在实现时,我们的目标是LRA和LDRA i)高效,ii)具有强空间分量以更好地引导R执行本地化平移,以及iii)具有强通道分量以变换R的输出和输入以进行混合。我们使用[23]实现LRA LDRA哪里I面具是表示阴影损失的二进制遮罩。LRA(i,j;θLRA)<$X(i,j)<$gh(i)<$gw(j),(五)阳离子。在阴影去除(图。1),由θ R参数化的函数R(,;θ R)(其使用DNN模型R实现,并在图1中的顶部图中描绘。1)使用为了获得无阴影输出图像Iout,LDRA(i,j;θLDRA)<$X(i,j)<$gh(i)<$gw(j),其中,X表示输入图像的矩阵,i和j表示像素的空间位置,j表示元素,明智乘法,θLDRA θLRA,以及gh和gw是Iout=R(Ishadow,Imask; θR)。(二)我们认为,阴影去除是本地化的图像到图像的翻译,只有一部分的I阴影,本地化的I掩模,将被翻译到目标的阴影自由域。大多数方法使用I掩模作为对阴影去除模型(SRM)的附加输入(等式11)。(2)),其中它被连接到I阴影作为第四通道。这旨在将图像平移限制在掩蔽区域上,但实际上仍然导致整个图像重建。检查SRM是否只聚焦于阴影区域的一种方法是检查它们的非阴影区域误差;如果SRM仅聚焦于阴影区域,则它应该为零(或等于数据集误差)。表1显示了ISTD4928注意力向量具有水平和垂直分量。为了简洁起见,我们省略了通道维度。我们用等式实现LRA(5)并与R联合训练它们。为什么[23]?我们使用[23],因为它符合我们的标准; i)最小开销,ii)由于全局无池化和方向感知设计而产生的强空间分量,以及iii)捕获跨信道信息的能力。请注意,我们的公式可以使用LRA和LDRA的任何实现(可学习或手工制作),而不仅仅是[23](第24节)。5.3用于消融)。LRA LDRA如何&引导R?请注意,香草残差预测引导R关注阴影区域(见图1)。1),并且由于LRA& LDRA扩展了它们(特别是LRA,因为它扩展了剩余),因此它们也固有地执行了此指导。稍后我们将向您展示4929GRR∈方法原始STC [65][第54话]味精[25]DCS[30]LGS [43]AE[16]G2R[44]SP-I-M[39]非阴影2.67.76.04.03.53.43.82.93.1表1.使用Adjusted-ISTD对非阴影区域进行最新方法的MAEOriginal表示的固有误差A-ISTD。残差预测在[44,39]中使用,而整个图像重建在其他中执行在这种情况下,D)当更新第二参数时,模型(在这种情况下,R)。换句话说,梯度gR是���������������埃克塞特河不反向传播到D;每个模型都用自己的成本函数单独更新。或者,不分离意味着梯度gR将反向传播到D并且用于更新D的参数;本质上,成本D将在等式n中具有附加项。(六)、LRA LDRA在阴影检测中的优势。在基线去除模型R中,实现等式(2)的de-测速操作可用于D;D输出I掩模这图2.当D与R不分离时,LRA LDRA对阴影检测模型D的正效应。顶部图示出了整个图像重建,其中成本R相对于R的梯度gR不帮助D提高其准确度,因为R不预测局部输出。下图显示了LRA LDRA,它迫使R产生局部输出,其中梯度gR帮助D。I掩码示出了仅通过使用梯度gR以弱监督方式训练的模型D的输出(详细信息参见补充材料在引导R专注于阴影区域以及这些模块单独做什么方面做得更好(参见图4)。混合和颜色校正。LRA LDRA可以被认为是一个细化网络,它在R的输入和输出上运行。这与现有的二次细化网络的去除方法[39,44]形成对比,后者仅对R的输出进行操作。我们假设(后来证明)LRA LDRA是一个更有效的替代这些方法。3.3. LRA LDRA改进阴影检测准备工作。在没有显式局部化先验(即,掩模)是可能的,但我们认为阴影检测是必要的步骤。因此,与[65]类似,我们联合训练模型R和D。假设我们有一个成本函数cost(由101损失标识),定义为:cost(y,y′;θ)y−y ′1(6)其中,y表示由具有参数θ预测的无阴影图像Iout,并且y ′表示对于阴影去除成本成本R的真实无阴影图像Ifree,并且y表示预测的掩模Imask,并且y′表示对于阴影检测成本成本D的真实掩模Imask-gt。在模型R的训练期间,计算成本R相对于R的参数的梯度gR,并将其用于更新R的参数。类似地,在D的训练期间,计算成本D相对于D的梯度gD,并将其用于更新D的参数。由于D和R是堆叠的,其中D的输出是R的输入,因此通常的做法是分离第一个模型(在是具有阴影定位信息的二进制掩模,并且R输出整个图像I输出(参见图1的顶部图)。①的人。这两幅图像没有太多共同之处,特别是在它们所拥有的信息方面。相反,当R实现eqn. (4)使用LRA LDRA,我们推测不分离可能对D有用;在这种情况下,R输出的区域具有与D的输出I掩码相同的定位信息(见下图图1)。我们在第5节中通过分离和不分离的实验证实了不用LRA和LDRA从R中分离D的有用性。详细的可视化见图 2 。 另 请 参 见 补 充 材 料 第 3.8 节 , 了 解 支 持 LRALDRA优势的弱监督检测实验4. 大规模阴影检测与去除在本节中,我们激发了对新数据集的需求,并展示了我们的管道。4.1. 动机实际的移除和检测数据集很小(10K[26]和4K样本[25]),甚至大型合成数据集[29]拥有有限数量的独特无阴影图像(1.8K)。人们可以假设任何图像都是无阴影的,以缩放数据集,但这些图像可能已经有阴影,并可能导致次优模型。4.2. 我们建议的PITSA数据集我们提出了一个新的管道,以找到一个工作的compro-pipeline;能力,利用任何图像的数据集生成,同时保持噪声(即,存在的阴影)。我们的目标是创建一个三元组数据集(Ishadow,Ifree,Imask-gt),对应于阴影,无阴影和阴影掩模图像。这是通过两个阶段的过程;阴影自由补丁提取和阴影叠加。无阴影补丁提取。首先,我们从各种来源收集图像D的数据库。对于每个图像IsrcD,我们运行一个预训练的阴影检测模型M[8](不要与D混淆)以获得阴影掩模。该荫罩通过CRF [35]模型(CRF)进行改进,������ℎ������������GR李RGRL整体图像重建我们的LRA LDRA4930数据集ISTD[65]SRD [54]USR [25]SBU [64][26]第二十六话数量的样本检测去除配对187030884215408710500172539✓✓✓×✓✓✓✓✓✓×××✓×✓✓✓图3.我们的数据集创建管道。顶部图像示出了输入(左)、预测阴影掩模(等式1)和阴影掩模(等式2)。(7))、无阴影块候选(红框)和所得无阴影图像块(右)。底部图像显示了提取的无阴影补丁(左),采样的掩模(中)和合成的阴影图像(右)。表3.我们的PITSA数据集是最大的检测和删除数据集。它也是显着多样性,无论是在风景和阴影掩模形状/位置。样本数是指图像对或三元组的数量。阴影掩模数据库D掩模,通过以下步骤获得阴影掩模:Imask−gt=F(σ(Dmask))(8)其中F是将随机变换(翻转和旋转)应用于由σ(·)随机采样的掩码的函数。我们使用Imask−gt通过以下混合操作表2. D和R的准确度(MAE和BER),我影子我暗I面罩−gt+我免费(1 −I屏蔽−gt )(9)装备有各种武器(上帝抵抗军、土地退化抵抗军)。Im表示I掩码。基线B用等式R表示(二)、S、NS和All分别代表阴影、非阴影和所有区域提高了它的精度,它是由一个函数阈值阈值以去除低置信度区域,m src=thresh(CRF(M(I src),Isrc))。(7)识别出m src中所有没有阴影的区域;我们寻找最大的正方形边界框,掩模不相交阴影像素,并且我们根据交集-并集(IOU)度量过滤掉高度重叠的候选者,并且要求最小补丁大小。在我们的流水线中,我们将最小IOU阈值设置为0.3,最小大小为128像素,并且我们为每个输入图像提取多达10个所得到的框的坐标用于对输入图像进行采样,从而使我们得到Nl自由,其中N是满足上述标准的补丁/图像的数量该过程在图1中可视化3.第三章。阴影叠加。然后,我们继续通过应用一系列旨在近似阴影区域的操作来生成I自由图像的修改版本。与[29]不同的是,我们不试图只将光模型约束到环境光。相反,我们还允许更改以下参数:温暖度、色调、饱和度和亮度。通过修改图像的红色和蓝色通道来改变温暖度对于后者,图像首先转换为HSV格式,每个通道独立修改,然后转换回其BGR格式。我们称结果输出为Idark。虽然在某些组合下产生的结果可能看起来不切实际,但我们能够近似不同的光颜色,并提高模型对阴影区域中轻微颜色变化的适应能力。最后,我们使用一个不同消融(LRA、LDRA)B(1、1)(1-Im,Im)([23],1)(1,[23])([23],[23])S↓NS↓全部↓7.943.203.868.692.663.567.322.973.547.732.713.458.452.553.407.542.553.294931⊙其中表示逐元素乘法。掩码数据库最初由[29]的掩码组成,但在生成期间,它被M产生的掩码msrc扩展。最终,我们获得了超过20000个口罩。讨论使用HR-WSI [69]和MIT-Adobe-5 K [6],我们创建了PITSA(具有阴影增强的补丁隔离三元组);它由172539个三元组组成,使用20416个独特的图像和超过20000个掩模创建(见图11)。3为例)。我们的管道类似于[38,29],但有关键区别; i)[38]使用具有固定大小的小重叠块,而我们分析整个掩模并提取最大的块以包括更多的上下文,ii)与[29]不同,我们生成新的无阴影块,iii)不限于现实阴影掩模,我们还使用滤波检测模型的掩模输出,并进一步增加掩模多样性。我们的流水线的限制是阴影检测器M的误差。这可以通过重复检测过程或用更好的模型更新M来改进我们在第5节中表明,数据量克服了潜在的噪声。表3显示PITSA数据集是最大的阴影检测和去除数据集。有关PITSA的详细信息,请参见补充材料。5. 实验5.1. 数据集和评估指标数据集。我们在基准数据集ISTD [65]和SRD [54]上检查LRA LDRA。ISTD由1870个图像三元组(1330个训练,540个测试)组成,用于检测和删除模型的训练评估。我们使用ISTD测试集(A-ISTD)的颜色校正版本[39]。SRD由3088个图像对组成(2680个训练,408个测试),用于模型的训练评估评估指标。 为了评估去除精度,我们在LAB空间中对阴影、非阴影和所有阴影使用MAE。4932××××表4.使用不同的骨架(第1至5列)和现有方法(第6至8列)获得的准确度,使用(右)和不使用(左)LRA LDRA。前五列使用在ImageNet上预训练的主干来实现R和D。我们用官方代码重新训练所有现有的方法[65,44,39]。对于[44],我们评估了480 640分辨率的图像,遵循官方代码库。[39]中提出的模型使用GT掩码进行训练。我们注意到,尽管许多方法声称报告RMSE,但它们实际上报告MAE [1]。对于检测,我们使用平衡错误率(BER)。图像大小调整为256 256评价与[82,27,40,8,79]不同,我们不对D预测的掩码进行后处理。5.2. 体系结构和实施细节网络架构。LRA LDRA可以插入任何模型,但作为我们的主要解决方案,我们使用[74]的架构,这是一个基于MobileNetv2 [56]和FBNet [67]的高效密集预测网络。我们使用这种架构,因为我们的初步实验表明,它具有������ℎ������������LL良好的效率/准确性权衡。我们对R和D使用相同的架构,其中两者之间的差异是输入通道的数量(D和R分别为3和4),R具有LRA LDRA。实作详细数据。我们使用ImageNet预训练的权重初始化R和D的编码器,其余的使用[22]。模型使用PyTorch [53]联合训练2Kepochs,批量大小为16,其中两者的学习率均设置为2e-4。图像大小调整为286 286,随机裁剪为256 256和增强(随机水平翻转)。Adam [34]优化器使用101损失来训练两个模型。我们使用早期停止,并从训练集中分离验证(20%的保留率)。对于ISTD和SRD,我们分别训练模型。当指示时,使用相同的超参数在PITSA上对模型进行350个epoch的预训练。5.3. 消融研究我们进行详细的消融研究,以显示我们的方法的几个组成部分的准确性的影响。我们使用第5.2节中描述的轻量级架构在ISTD数据集上进行了实验(除非另有说明)。对LRA、LDRA的成分分析。图4显示了在我们的流水线的每个阶段获得的输出。LRA的加入在视觉上似乎没有太大的变化(空间上),但它提高了阴影区域的准确性(见表2);它准备输入与R out混合。注意图2和图3中的行中没有LRA的无效混合。4;伪影在最终输出中可见。此外,如本文前面所述,添加LRALDRA指南R以产生局部化结果。请注意,Rout与LRALDRA最尖锐,表明它确实是引导的。图4.图2显示使用基线w/o残差、香草残差(即,用于LRALDRA的身份&),(1-I掩模。我面具)和最后的上帝抵抗军。列显示我们的方法的阶段性输出;输入,LRA的输出,预测掩码,SRM R的输出,LDRA的输出和最终结果。我们的LRA LDRA产生更清晰的掩模,去除输出和无伪影的结果。比vanilla残差预测更好。LDRA的另一个效果,如在LDRA输出中所见,是颜色校正;形状与R out相同,但LDRA细化了颜色,使其适合最终混合。最后,请注意,I掩码在LRA LDRA中是最清晰的,验证了R在D的训练中提供的梯度的有用性。选择LRA LDRA。我们测试了实现LDRA和LRA的替代方案,例如恒等函数1、I 掩 模由D预测并协调注意力[23]。表2表明,无论LDRA LRA的类型如何,D(+1 BER)和R(+0.6MAE)都得到改善。LRA和LDRA模块(与[23])分别引入了改进,当它们一起使用时甚至更是如此,这证明了它们的存在。请注意,最佳阴影区域精度来自选择I 掩 模,而最佳总体精度来自使用坐标关注的LRALDRA [23]。这表明了我们方法的灵活性,可以为不同的目标选择不同的函数。有关该消融的扩展版本,请参见补充材料第3.2节。LRA LDRA作为即插即用。表4显示了使用和不使用LRA LDRA的不同方法和主干前五列显示,在不同的主链上,LRA LDRA比-,������������−基线B你好,你好S↓NS↓全部↓不同主干现有方法[72]第二节[72] 101 - 102- 103 - 2013MNAS[60]EffNet[61]幽灵[21]STC[65]G2R [44]SP-I-M [39]7.26/7.393.33/2.873.91/3.587.11/7.273.13/2.903.73/3.588.09/7.863.45/2.894.11/3.627.82/7.803.88/2.634.46/3.397.91/8.113.70/3.114.37/3.778.08/7.783.87/3.474.53/4.1610.3/9.903.87/3.814.84/4.705.84/5.552.59/2.573.11/3.01BER↓1.99/1.942.09/2.202.26/2.202.06/1.612.60/2.773.88/3.65––4933输入NS ↓ 3.9S ↓三 十七 点四ISR[17]DSC[24][第54话]DCS[30]B LLLL†全部↓十三 点七25.46.912.38.83.24.83.58.85.17.7 7.67.56.53.4 4.03.53.44.6 4.84.44.0††×表5.不同实验中D和R的准确度。前两列显示了模型D与模型R分离(标记为)的结果,其中R实现了基线(B)(等式10)。(2))或我们的LRA LDRA(LL)。第3列到第5列显示了不同方法在我们的PITSA数据集上进行预训练的结果(右)或没有(左)。所有和非阴影MAE一致,而它们在大多数情况下改善阴影MAE和BER。最后三列表明,现有方法与LRALDRA(+0.4 MAE)一致改进。使用LRA LDRA改进阴影检测 表2和表4表明LRA&LDRA提高了D.我们还进行了有无LRA LDRA的实验,其中模型D与R分离或不分离。表5的前两列示出了将R从D分离提高了用于整个图像重建的D(2))但对LRA和LDRA的D和R不利这支持了我们在第3.3节中的主张,即对于LRA LDRA,将梯度gR反向传播到D会改善D。使用PITSA的预训练模型。表5的第3至5列显示,PITSA上的预训练模型显著提高了所有方法的准确性(+1.2 MAE)。在非阴影区域,改善是轻微的,因为[39]我们已经接近数据集错误。然而,阴影区域得到显著改善。在检测中,LRA LDRA的精度略有提高,而[65]的精度大大提高(+1.8 BER)。我们将此归功于LRA LDRA已经改进了检测,因此与[65]相比,改进的空间较小。因此,PITSA优于(以前)最大的合成数据集(见补充材料表1)。5.4. 与最新技术水平的阴影消除。我们将LRA LDRA与手工制作的方法[73,17],ST-CGAN [65],DHAN [11],De-ShadowNet [54],G2 R-ShadowNet [44],SP-I-M [39],DC- ShadowNet [30]和其他几种方法。表6显示了SRD测试集的移除精度。考虑到阴影区域的准确性和整体准确性,我们的方法优于其他方法。此外,PITSA数据集上的预训练显示出显著的准确性提高。表7显示了A-ISTD的阴影去除精度。我们的方法(LL)产生了最好的非阴影(2.5 MAE)和整体(3.2 MAE)精度,这表明LRA LDRA使模型能够聚焦 关于阴影去除而不是重建非阴影表6. SRD上的清除性能。B表示基线方法(在方程中描述)。(2)译注。表示PITSA上的预训练模型。LL表示上帝军LDRA。LRA LDRA,一旦在我们的PITSA数据集上进行了预训练,就显著优于(+0.7所有地区MAE)其他人。阴影检测。我们将我们的模型D与MTMT[8],DSD [79],stacked-CNN [64],scGAN [49]进行比较,ST-CGAN [65]、DSC [24]、BD-RAR [81]和FDRNet[82]见 附件 。 表8 显 示, 尽 管执 行 了后 处 理[35],FDRNet [82]的 性 能 仅 优 于 我 们 0.01 BER 。 一 旦 在PITSA上进行预训练,我们的方法就优于FDR- Net(+0.1 BER)。这些结果验证了LRA LDRA在提高检测精度方面的有用性。有关定性结果,请参见5.5. 定性结果和讨论定性结果。图5示出了LRA LDRA几乎不影响非阴影区域。这在第一、第四和第五行中尤其明显。即使是高复杂度的SP-I-M [39]也试图恢复非阴影区域,但当非阴影区域复杂时失败了。我们的模型在阴影区域上具有竞争力;它们产生最小的重影和一致的颜色。最后,所有行均显示PITSA预训练的显著效果;在&PITSA上预先训练的LRA LDRA在阴影和非阴影区域中显著优于所有其他区域。使用野外图像的更多结果,请参见参考资料。业绩分析。表9示出了LRA& LDRA具有最小开销; 0.1MFLOPs复杂度,0.7MB内存和2.7ms运行时间([39]为0.5ms)。我们还表明,插入到我们的架构(表9第二列)的LRA LDRA更小,更快,消耗更少的内存相比,其他人,尽管优于他们。与[39]相比,我们的方法更快(5%),更小(少150内存),更准确,尽管联合执行检测和删除。为什么不...复制粘贴(CP)非阴影区域?针对LRALDRA的一个自然问题是,为什么在理想情况下,CP可以在非阴影区域上提供0 MAE。然而,在实际中,由于以下几个原因,我们的解决方案更好;i)CP依赖于完美阴影掩模的可用性,这可能是不可行的ii)LRA LDRA执行混合/颜色校正,iii)LRA LDRA提供对较小掩模误差的鲁棒性,以及iv)还改进阴影检测。地区在阴影区域,我们的方法表现得相当有竞争力,尽管其他人使用更大的网络进行删除。我们注意到LRA LDRA实际上也改进了这些方法(表4的最后两列)。性能。使用CP然后进行混合也是合理的,但LRALDRA是一种端到端的可学习替代方案,可以随数据/容量扩展。更多细节和讨论请参见补充材料。D上的消融PITSA上的消融预培训(B,B†)(LL、LL†)会SP-I-M [39]STC[65]S↓NS↓全部↓7.77/7.433.14/3.283.87/3.947.53/7.822.49/2.76三点二八/三点五六(7.54(见第5.67段)(2.55(见第2.40段)(3.29,2.91)(5.84(见第5.02段)(2.59(见第2.48段)(3.11(见第2.85段)(8.08(见第6.49段)(3.87,2.77)(4.53、3.30)4934上帝抵抗军/利比里亚民主抵抗军上帝军/利比里亚民主抵抗军 *NS ↓ 2.6 14.4 2.6 7.7S ↓40.224.713.313.411.415.922.0输入SRB[73]ISR[17]STC[65][第11话][第54话]PRS[20]DSC[24]G2R[44]SP-I-M[39][83]第16话:我的世界LL†全部↓ 8.5 16.0 4.3 8.77.27.96.07.63.1 3.26.1 3.97.32.93.66.03.13.66.53.84.26.12.93.57.97.55.63.22.52.43.83.22.9→→→†表7.A-ISTD上的清除性能B是基线方法。†表示在PITSA上进行的预培训LL表示上帝军LDRA。[49]第一届全国人大常委会第十五次会议审议通过了《中华人民共和国电信与信息服务业务经营许可证》(以下简称《许可证》)。BER↓ 8.60 4.70 3.85 2.69 3.42 2.17 1.721.551.561.47表8.A-ISTD上的检测性能†表示在PITSA上进行的预培训LL表示上帝军LDRA。输入ST-CGAN[65][39]第一届中国国际汽车工业展览会[11]*地面实况图5.对上帝抵抗军、土地退化抵抗军和其他方面进行定性比较。*表示在PITSA上预先训练的模型。我们强调一些例子,替代方案不必要地改变非阴影区域(),错过阴影区域()或在阴影区域产生伪影()。注意,LRA LDRA几乎不接触非阴影区域,并且具有竞争性的阴影区域性能。放大时最佳观看。B会[39]第三十五话:一个人的世界[44]第三十四话:一个人的世界G2 R [44]†运行时间(ms)3739.7280281.440.440.9116118.9内存(GB)0.0610.0622.742.7410.510.050.1410.142FLOPs(G)0.68350.6836721.2651721.265225.801825.801994.575694.5757ISTD MAE(所有)3.863.294.534.163.603.494.844.70表9. LRA LDRA(LL)的开销。B是基线方法(方程(2)译注。用LRA LDRA训练方法。FLOP仅适用于移除网络。内存和运行时间值是针对D和R的前四列,而R仅针对最后四列。使用PyTorch使用RTX 3090进行测量注意,LL(和t)带来的开销可以忽略不计。6. 结论我们解决阴影检测和消除任务;我们重新考虑使用LRA LDRA模块的残差预测&,该模块在阴影消除模型的输入和输出上进行操作。这些模块引导模型专注于阴影区域,并执行颜色校正和混合。我们的实验表明,LRA LDRA在检测去除方面达到了最先进的精度,并且网络更小,速度更快。LRA LDRA工作在不同的骨干,甚至改善现有的方法。最后,我们提出了一个新的数据集生成管道和PITSA数据集的检测删除,这是10倍以上的最大的数据集的多样性。我们的研究结果表明,PITSA上的预训练模型进一步改善了LRA,LDRA和其他方法显着。引用[1] 官 方 GitHub 页 面 https://github.com/cvlab-stonybrook/SID.[2] 伊莱·阿贝尔和哈吉特·赫尔·奥尔使用强度表面和纹理锚点 去 除 阴 影 IEEE transactions on pattern analysis andmachine intelligence,33(6):1202[3] Harry Barrow,J Tenenbaum,A Hanson和E Riseman。重新发现场景的内在特征. Comput.目视系统,2(3-26):2,1978.[4] K Berker Logoglu、Hazal Lezki、M Kerim Yucel、AhuOz- turk 、 Alper Kucukkomurler 、 Batuhan Karagoz 、Erkut Erdem和Aykut Erdem。低空飞行平台的有效运动目标检测。法律程序4935IEEE计算机视觉研讨会国际会议,第2119-2128页[5] Yunus Can Bilge , Mehmet Kerim Yucel , RamazanGokberk Cinbis,Nazli Ikizler-Cinbis和Pinar Duygulu。红色汽车-宠物搏击俱乐部:部分监督域转移用于暴力视频中的人脸识别。在IEEE/CVF计算机视觉应用冬季会议论文集,第3358-3369页[6] VladimirBychko vsky , Syl vainParis , EricChan 和 Fre´doDurand。使用输入/输出图像对的数据库学习摄影全局色调调整在2011年第二十四届IEEE计算机视觉和模式识别会议[7] 陈子培,龙承江,张玲,肖春霞。Canet:一个用于阴影消除的上下文感知网络。IEEE/CVF计算机视觉国际会议论文集,第4743-4752页,2021年[8] Zhihao Chen,Lei Zhu,Liang Wan,Song Wang,WeiFeng,and Phen
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功