没有合适的资源?快使用搜索试试~ 我知道了~
23090利用失真引导网络进行空间自适应图像恢复0Kuldeep Purohit 1 Maitreya Suin 2 A. N. Rajagopalan 2 Vishnu Naresh Boddeti 101 密歇根州立大学 2 印度理工学院马德拉斯分校0摘要0我们提出了一种通用的基于学习的解决方案,用于恢复受到空间变化降级的图像。之前的方法通常是针对特定的降级,并在不同图像和不同像素之间采用相同的处理。然而,我们假设这种空间刚性处理对于同时恢复降级像素和重建图像的清晰区域是次优的。为了克服这个限制,我们提出了SPAIR,一种利用失真定位信息并动态调整计算以适应图像中困难区域的网络设计。SPAIR由两个组成部分组成,(1)一个定位网络,用于识别降级像素,和(2)一个恢复网络,利用定位网络在滤波器和特征域中的知识选择性地和自适应地恢复降级像素。我们的关键思想是利用空间域中严重降级的不均匀性,并将这种知识嵌入到执行稀疏归一化、特征提取和注意力的失真引导模块中。我们的架构对物理形成模型是不可知的,并且可以推广到几种类型的空间变化降级。我们在四个恢复任务上单独展示了SPAIR的有效性-去除雨痕、雨滴、阴影和运动模糊。与11个基准数据集上的先前技术进行了广泛的定性和定量比较,结果表明我们的降级不可知网络设计相对于最先进的降级特定架构提供了显著的性能提升。代码可在https://github.com/human-analysis/spatially-adaptive-image-restoration找到。01. 引言0图像在数据采集过程中经常会受到降级,特别是在非理想成像条件下。这些降级可以归因于相机、场景元素和照明之间的介质和动态。例如,如图1所示,(1)降水导致占据场景和相机之间体积的雪/雨痕,(2)存在雨滴0图1.降级掩模的可视化。两行显示了降级输入图像和相应的预测掩模。0相机镜头上的水滴会导致场景可见性显著降低,相机或场景元素之间的相对运动会导致运动模糊,恶劣的照明条件会产生严重的阴影。尽管这些降质的来源各不相同,但它们共享同样的影响图像质量的基本主题,即空间变化的降质。例如,雨滴和阴影会根据其大小和位置降低图像的整体部分,运动模糊会随着场景深度和运动程度而变化,而雨痕仅影响其方向取决于相对雨水方向的稀疏区域。图1显示了降级图像和相应的失真图的代表性示例。可以看到大量像素几乎没有或没有失真。另一个观察结果是,每个图像中的失真量及其空间分布都不同。恢复这样的图像对于提高其美学质量以及下游任务的性能非常重要,例如检测、分割、分类和跟踪。卷积神经网络(CNN)目前是各种图像恢复任务的最先进技术。尽管最近取得了进展,但现有方法存在一些关键限制。首先,网络中的所有层都是通用的CNN层,它们对每个降级图像应用相同的空间不变滤波器。这样的层在反转高度依赖于图像的降级方面的能力上有限。其次,大多数网络架构是针对个别降级类型进行特定设计的,因为它们基于图像形成模型。第三,标记数据集中嵌入的失真定位信息在所有现有解决方案中未被使用或未被充分使用。当静态CNN模型直接从降级图像中回归出清晰度时,它们的性能较差时23100输入包含未受影响的区域以及不同空间区域中的严重强度失真。从概念上讲,一堆优秀的学习滤波器,擅长恢复受到大幅度失真的像素,可能不适合从未受损区域重建纹理。实际上,我们观察到这样的设计通常会导致恢复性能较差(在本来未受损的像素上引入不必要的变化或伪影)。静态CNN面临的问题只会加剧失真的空间分布和幅度的图像依赖性。受到每个测试图像中存在的退化情况可以使恢复网络受益的理解的启发,我们提出了一种适应失真的模型,以同时实现恢复和重建的双重目标。我们的空间自适应图像恢复架构(称为SPAIR)适用于任何选择性影响图像部分的退化类型。它由两个组件组成:失真定位网络(NetL)和空间引导恢复网络(Net R)。NetL从整个图像中收集信息,估计一个二进制掩码(定位高强度失真),该掩码引导NetR的处理,只有改善退化区域。所提出的NetR由3个失真引导块组成:空间特征调制器(SFM),稀疏卷积模块(SC)和自定义稀疏非局部模块(SNL)。SFM利用来自Net L的输出掩码和中间特征来调制NetR中间特征的统计信息。SC和SNL以图像依赖的方式改善空间稀疏退化区域中的特征,而不影响干净区域中的特征。SNL通过从所有干净区域自适应地收集全局上下文来局部恢复失真区域中的特征。我们的主要贡献是:-一个两阶段的框架,以可解释的方式系统地利用失真定位知识,直接解决与各种空间变化退化相关的挑战。它实现了恢复和重建的双重目标,并适用于各种退化类型。-NetR中特征统计的失真引导的空间变化调制,借助失真掩码和预训练的NetL的特征。-借助SC(用于局部上下文)和新颖的SNL(用于全局上下文)模块,进行失真引导的特征提取。这些组件以图像和位置自适应的方式促进了空间变化的恢复,同时控制了感受野。-我们通过在11个合成和真实数据集上设定新的最先进水平,展示了SPAIR的多功能性,用于各种空间变化的恢复任务(去除雨痕、雨滴、阴影和运动模糊),超越了现有方法。0改造现有的针对特定任务的网络工程方法。此外,我们提供了详细的分析、定性结果和泛化测试。02. 相关工作0自适应推理:自适应推理技术[60, 54, 12,27]引起了越来越多的关注,因为它们能够根据输入改变CNN结构。一类方法在推理过程中动态跳过级联CNN中的一些层[62, 54,5]。[6]将采样的像素(使用在推理过程中固定的随机模式)传递给CNN层,并使用简单的插值填充其余位置。少数方法[13,12]利用输入图像本身的稀疏性使用子流形稀疏卷积,但对于非稀疏输入数据不适用。然而,这些方法中没有一种能够提供在多个中间层上进行空间变化图像恢复所需的细粒度空间域控制。例如,跳过某些层的方法或修剪网络仍然使用相同的参数过滤退化和其他图像区域。[5]等方法仅适用于连续残差层的级联,并且不适用于编码器-解码器设计(通常用于图像恢复),其中有条件地改变网络深度或通道宽度是非平凡的。[6]中提出的对空间域信息的任意拒绝不适用于一般的恢复任务。去除雨滴:去除雨滴的解决方案包括经典方法和基于CNN的方法。[22]提出了基于聚类和中值滤波的恢复方法,而基于CNN的方法包括浅层CNN[4]但性能有限,基于卷积LSTM的“联合”学习雨图和无雨图像的模型[42]以及更深的CNN[31]。[44]则利用雨滴属性的物理模型(包括闭合性和圆度)来估计雨滴概率。与这些方法相比,SPAIR提倡像素选择性和自适应处理以去除雨滴。去除雨痕:传统的去雨方法[3, 76, 29,33]采用基于模型的方法,利用雨的物理特性和背景场景的先验知识构建优化问题。基于CNN的方法包括端到端的负残差映射[8],更深的CNN[66],具有循环连接的多阶段CNN[28],用于预测去雨过程中密度(重、中、轻)的CNN[71],以及将雨图连接到去雨过程中的CNN[65]。然而,这些方法中的层处理所有图像区域时使用相同的滤波器(没有像素自适应)。[56]提出了具有卷积字典学习的基于模型的CNN。Wang等人[58]预测雨图并将其逐元素与特征图相乘以增强它们。虽然SPAIR也利用了一个掩码,但存在根本性的差异。我们估计一个双向23110二进制掩膜并更全面地利用它,包括用于稀疏滤波、注意权重计算以及将其引导到未退化的图像区域。SPAIR在三个方面与[65,42]的雨引导模型有很大不同。(1)它们只在输入时连接雨掩膜。相反,我们利用失真掩膜仅在退化区域上执行卷积和非局部操作。我们还使用SFM将特征统计信息从干净区域传递到退化区域的多个中间层。(2)它们缺乏全局上下文。SPAIR包含SNL模块,能够自适应地收集图像干净区域内的所有特征值。(3)所有像素都通过相同的网络进行处理,具有空间上的刚性处理,这与我们的工作直接相反。我们的方法是首个利用明确的退化引导来有选择地处理退化像素并减少对未受影响区域影响的方法,适用于各种空间稀疏退化。去除阴影:早期的方法通常通过用户交互或将非阴影区域的照明转移到阴影区域来擦除阴影[14,23]。使用基于CNN的方法取得了更强大的结果,其中包括使用多个网络[16],DeshadowNet用于阴影区域的照明估计[43],堆叠的条件GANs[57],ARGAN用于检测和去除阴影的多步骤[2],RIS-GAN[75]用于估计负残差图像和逆照明图以进行恢复,最后使用膨胀卷积的级联来联合估计阴影掩膜和无阴影图像[1]。与上述方法相比,我们提出了一个两阶段的框架,其中失真掩膜和NetL的中间学习特征以原则性的方式用于区域感知和选择性恢复。去除运动模糊:传统方法[26]在图像和运动上设计先验(例如,局部线性模糊核[52,10],平面场景[41]),但在一般的3D和动态模糊场景中成功有限。最近的基于CNN的方法直接估计潜在的清晰图像[36],其中提出了编码器-解码器设计,以粗到细的方式聚合特征[36, 53, 9,40]。此外,[73]探索了由多个CNN和RNN组成的设计,[69]提出了一个分层网络的补丁,并将其副本堆叠在深度上以实现最先进的性能。[37]提出了一种用于高效去模糊的循环设计。所有这些方法共享的局限性是缺乏空间变化自适应层。[39,38]提出了适用于高效运动去模糊的基于方向的特征提取模块。[51]在[69]的层中插入自适应卷积和注意力来提升其结果。我们的失真引导稀疏架构在超过运动模糊的情况下表现更好,并在其他退化情况下提供一致的增益。通用恢复架构:少数解决方案0文献中提出了一些方法来解决多种退化类型的问题。例如,DuRN[32]在网络结构中进行了任务相关的改变。类似地,OWAN[50]被提出来处理同一图像中存在的多种退化。然而,[50]只处理了简单的合成退化,如高斯模糊、噪声和JPEG伪影。SPAIR在多个物理无关的严重空间变化的实际数据集上展示了其有效性。在这种情况下,DuRN和OWAN相对于我们的模型来说相当不足,正如我们的实验证明的那样。03. 提出的网络架构0图像恢复模型需要解决两个同等重要的任务:(1)定位图像中需要恢复的区域,以及(2)对应区域应用正确的滤波机制。虽然NetL解决了前者,但我们通过一个空间引导的恢复网络NetR来实现后者。SPAIR的示意图如图2所示。预训练NetL的中间特征的知识提高了NetR的训练,而掩膜本身则使恢复过程具有适应性。为了实现恢复和重建的双重目标,通过SFM(空间特征调制器)、SC(稀疏卷积)和SNL(稀疏非局部)模块,在NetR中对提取的特征进行失真引导的滤波。03.1. 失真定位网络(Net L)0为了最大限度地提高我们方法的泛化能力,我们采用U-Net拓扑结构[48]作为我们的CNN骨干(用于定位和恢复网络)。这个结构的不同版本已被证明对于多个恢复任务非常有效,如图像去模糊[53],降噪[34]和一般的图像到图像的转换[19]。我们构建了一个密集连接的编码器-解码器结构,其详细的逐层描述在补充材料中给出。这个设计在考虑的所有任务中都具有竞争力的性能,因此作为我们NetR的骨干(见第6节)。Net L是NetR的轻量级版本(具有类似的结构),因为二分类(定位)任务比强度回归(恢复)任务更简单。给定一个受损图像,NetL生成一个单通道掩码,并使用二元交叉熵损失进行训练,以匹配GT二进制掩码。对于没有地面真值掩码的数据集,我们使用受损图像和干净图像之间的绝对差异,并对其进行阈值处理以获得二进制掩码,将像素分类为受损(值为1)或干净(值为0)。凭经验,我们观察到当NetL只预测具有严重失真的像素时,NetR的性能会提高(而不是检测即使微小的强度变化)。注意,失真图直接与恢复的难度相关,并且可能与实际发生的退化分布不同。+ConvolutionLayerDenseConvolutionBlockSpatialFeatureModulatorSparseConvolutionModuleSparseNon-LocalModuleLocalizationNetwork (NetL)≡ConvReLUConvReLUConvReLUConcat1 × 1 Conv+DenseDecoderModule�− M))(1)Mp = 1(2)23120图例0图2. 提出的SPAIR及其组件。Net R显示在顶部,NetL显示在底部。两个网络之间的连接(用于SFM)使用黑色箭头表示。0例如,当物理雨纹均匀分布在整个图像中时,失真图在城市纹理区域中的非零值会比天空区域多(因为白色雨纹不会显著改变天空中的亮度)。03.2. 空间引导恢复网络(Net R)0如图2所示,NetR使用一系列密集连接层[17]从输入的受损图像中提取特征金字塔。这些特征被馈送到解码器,生成恢复图像。尽管简单的卷积层(所有先前工作的基本构建块)可以学习到小强度变化的校正,但对于空间分布的重度退化,它们很难处理。对于这样的区域,基于定位的引导可以提高恢复质量。我们提出了3个模块,利用训练好的NetL将定位知识传递给NetR。由于图像生成过程需要解码器同时学习重建和恢复,解码器的每个级别都包含一个SC和一个SNL模块。请注意,我们在NetR的编码器层中不使用SC或SNL,因为那样会完全丢弃受损图像的强度(其中包含部分有用的信息)。我们在多个级别上使用SFM执行失真引导的特征归一化,以补充SC和SNL模块。03.2.1 空间特征调制器(SFM)0SFM以加法方式将Net R的特征与预训练的NetL的中间特征融合。我们观察到,通过这样的特征引导,NetR的早期层提取出更多与输入图像中的退化变化强相关的失真感知特征。由于两个网络共享类似的编码器-0解码器结构中,所有步幅卷积层的输入都使用SFM进行融合,如图2所示。在CNN中,特征归一化被认为是重要的,并且与特征提取相辅相成。SFM的作用是执行失真引导的空间变化特征归一化。这补充了使用局部(SC)和全局(SNL)上下文进行失真引导的特征提取过程。SFM模块在受损位置上执行自适应的特征统计偏移,有助于恢复过程。研究[21]表明,特征均值与全局语义信息相关,而方差与局部纹理相关。受此启发,我们的SFM调制了受损位置的特征,以匹配干净区域的特征统计(均值和方差)。给定融合的特征F和预测的掩码M,我们计算调制后的特征FS。0FS = σ ( F, (1 − M )) � F ⊙ M − µ ( F, M )0p Q p ⊙ M p ,标准差为σ(Q, M) = �0p M p � p ( Q 2 p ⊙ M p − µ ( Q, M )) +0脚本p表示2D像素位置,⊙表示逐元素乘积。由于只希望在退化的位置调制特征,因此SFM的最终特征输出是FS⊙M +F⊙(1−M)。03.2.2 基于掩码的稀疏卷积(SC)0正如前面讨论的,一般卷积层的滤波器是空间不变的,因此被迫同时学习恢复和重建任务,这阻碍了训练过程并降低了模型的性能。SPAIR利用了基于掩码的稀疏卷积的有效性,有助于选择性地恢复高度退化的区域,并简化了学习过程。SC(如图2所示)包含一组密集连接的6个引导稀疏卷积层,后面跟着一个1×1卷积以减少通道数。SC中的每个单元都接收输入特征图F和预测的掩码M。掩码M中被标记为1的像素被采样,并通过卷积操作传递,得到稀疏特征图FS。0FSp = � 0 M p = 0 �0其中Rk表示具有内核大小k的内核偏移的支持区域(例如,对于3×3卷积,Rk = {(-1,-1),(-1,0),...,(1,1)},k =3),K∈RCin×Cout×k×k表示卷积权重。尽管SC对于当前的空间变化任务非常有效,oright = softmax(fi,j ⊙ Frighti,j)(3)grighti,j= Frighti,j⊙ o(4)hi,j =4�k∈Ωeki,j ⊙ gki,j(5)23130图3.区域引导的稀疏非局部(SNL)模块用于退化引导的上下文聚合。稀疏的1x1卷积连接了两个结构相同的稀疏注意力步骤。0但它的感受野仅限于退化像素。接下来,我们将介绍我们的SNL模块,该模块使用全局上下文聚合(带有失真引导)提取特征,并补充SC的作用。03.2.3 区域引导的稀疏非局部模块(SNL)0大多数计算机视觉任务本质上是上下文相关的。常用的用于收集更大上下文的工具,如扩张卷积[68]、全局平均或注意力池化[15]或多尺度方法[53]等,可以将感受野扩大到简单卷积层之外。然而,它们并不是图像自适应的,仍然无法有效利用完整的特征图。相反,单个非局部层[59]能够自适应地将感受野扩展到每个图像和每个像素的最大H×W大小。我们认为这样的特性非常适合空间变化的恢复模型,其中严重损坏的区域可以从整个图像中收集相关特征。自适应全局上下文聚合的有效性也在[59,45]中用于识别/分割任务中进行了探索。我们假设在恢复模型中,非局部上下文聚合过程可以从退化像素位置的知识中获益。我们直觉地认为在空间域中传播严重退化的信息可能是适得其反的。理想情况下,自适应模块应该学会完全忽略不相关的特征,但是最近的视觉模型(例如图像标题[18])表明这种行为在实际中并没有实现。它们采取额外的过滤来去除不必要的信息。相反,所提出的SNL模块利用失真掩码来控制非局部上下文聚合的范围。在恢复退化像素时,它为仅来自未/轻度退化像素位置的特征分配动态估计的非零权重,从而提供卓越的性能,因为它减弱了严重退化/损坏信息的影响。此外,SNL模块仅对退化像素位置执行此操作,不改变清晰区域的特征。如图3所示,SNL由一个高效的0两步聚合方法,每一步由四个固定方向上的水平-垂直扫描组成:从左到右,从上到下,反之亦然。两步是为了从所有像素中获取全图上下文信息。虽然文献中已经探索了CNN特征的方向扫描[ 55 , 30],但SPAIR引入了一个区域引导和稀疏非局部模块。我们详细说明SNL模块的第一步中水平方向的特征聚合过程(其他方向也可以类似地推导出来)。我们将特征图F ∈ R C ×H × W 中特定位置( i, j )的值表示为 f i,j ∈ R C。为了模拟它与右侧所有其他有效位置(确保 M i,j = 0)的关系,我们使用softmax计算出一个配对关系矩阵 oright ∈ R W − i ,如下所示:0然后使用该矩阵来衡量特征对右侧( F right i,j)的贡献,如下所示:0其中 g right i,j ∈ R C 。请注意,在上述操作期间跳过 M i,j = 0的位置,并且四个方向的操作在CUDA实现中是并行执行的。最后,使用像素适应权重来融合四个方向的特征。这些权重 E ∈ R 4 × H × W0通过将特征 F 输入到另一个卷积层,生成融合特征 h i,j,如下所示:0其中 e k i,j ∈ R 1 是 E 的 ( k, i, j ) -th 元素, k ∈ {left, right, up, down }。整个过程重复两次(图3),以便每个像素收集全局上下文。稀疏 1 × 1卷积:为了在SNL模块的两个步骤之间执行特征细化,我们引入了稀疏 1 × 1卷积。如图3的子图所示,在由二进制掩码指定的感兴趣的特征位置上,提取出点对点的特征表示。然后,一个全连接层接受并细化这些点对点特征的整个堆栈。这将在选择的点上将2D卷积替换为1D卷积,并促进稀疏处理。04. 数据集和实现细节0雨滴:使用与最近的图像去雨方法相同的实验设置,我们使用从多个数据集[ 8 , 29 , 66 , 71 , 72 ]收集的 13,712对清洁-雨图像进行模型训练。使用这个单一的DerainNet [7]22.770.81014.920.59227.030.88424.310.86123.380.83522.48 (69.3%)0.796 (61.3%)SEMI [61]22.350.78816.560.48625.030.84224.430.78226.050.82222.88 (67.8%)0.744 (69.1%)DIDMDN [71]22.560.81817.350.52425.230.74128.130.86729.650.90124.58 (60.9%)0.770 (65.7%)UMRL [67]24.410.82926.010.83229.180.92329.970.90530.550.91028.02 (41.9%)0.880 (34.2%)RESCAN [28]25.000.83526.360.78629.800.88131.290.90430.510.88228.59 (37.9%)0.857 (44.8%)PreNet [46]24.810.85126.770.85832.440.95031.750.91631.360.91129.42 (31.7%)0.897 (23.3%)23140表1.图像去雨结果。最佳和次佳分数已突出显示并加下划线。对于每种方法,SPAIR实现的相对MSE减少率在括号中报告(详见第4节计算)。SPAIR相对于0Test100 [ 72 ] Rain100H [ 66 ] Rain100L [ 66 ] Test2800 [ 8 ] Test1200 [ 71 ] 平均方法 PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑0MSPFN [20] 27.50 0.876 28.66 0.860 32.40 0.933 32.82 0.930 32.39 0.916 30.75(21.9%)0.903(18.6%)0SPAIR(我们的方法)30.35 0.909 30.95 0.892 36.93 0.969 33.34 0.936 33.04 0.922 32.91(0.0%)0.926(0.0%)0表2. 在SPANet [58]和Rain100H [66]基准上训练和测试的模型的定量比较。0数据集 指标 DSC GMM Clear DDN RESCAN PReNet SPANet JORDER E RCDNet 1 RCDNet SPAIR0SpaNet [58] PSNR 34.95 34.30 34.39 36.16 38.11 40.16 40.24 40.78 40.99 41.47 44.10 SSIM 0.9416 0.9428 0.9509 0.9463 0.9707 0.98160.9811 ** 0.9816 0.9834 0.98720Rain100H [66] PSNR 13.77 15.23 15.33 22.85 29.62 30.11 25.11 30.50 30.91 31.28 31.69 SSIM 0.3199 0.4498 0.7421 0.7250 0.8720 0.90530.8332 0.8967 0.9037 0.9093 0.92010在训练模型之后,我们对不同的测试集进行评估,包括Rain100H [66],Rain100L [66],Test100 [72],Test2800[8]和Test1200010 − PSNR / 10 )和SSIM转换为DSSIM(DSSIM=(1−SSIM)/2)。我们还在SPANet数据集[58](真实世界的雨)上评估SPAIR,该数据集包含2×105个训练图像和1000个测试图像。雨滴:我们使用AGAN数据集[42],其中包含861个训练样本和58个测试样本。通过在相机和场景之间放置一个带有雨滴的玻璃来生成图像。阴影:我们使用具有真实阴影和多样纹理场景的具有挑战性的ISTD[57]基准测试数据集进行模型评估,其中包含1300个(训练)和540个(测试)图像。运动模糊:我们遵循[51, 70, 25,53]的配置,并使用GoPro[35]数据集进行训练和评估,该数据集包含2103个图像对进行训练和1111个图像对进行评估。此外,为了展示泛化能力,我们直接在HIDE [49]和RealBlur[47]数据集的测试集上评估我们的GoPro训练模型。HIDE数据集专门用于人体感知运动去模糊,包含2025个测试图像。虽然GoPro和HIDE数据集是通过平均真实视频生成的,但RealBlur-J数据集中的模糊图像是在真实环境条件下捕获的。实施细节:对于每种退化,NetR经过训练以最小化输出与GT清晰图像之间的l1重建损失。NetL使用与GT二进制掩码相关的二进制交叉熵损失进行训练。每个训练批次包含从退化图像中随机裁剪的大小为256×256的RGB补丁,这些补丁在水平或垂直方向上随机翻转。雨滴,雨滴和阴影去除的批量大小为8,去模糊的批量大小为16。两个网络都使用Adam优化器,初始学习率为2×10−4,每50个时期减半。我们使用PyTorch库和RTX 2080TiGPU。0表3. Qian等人的测试集上的雨滴去除结果[42]。0方法Eigen [4] Pix2pix [19] AGAN [42] DuRN [32] Quan [44] SPAIR PSNR28.59 30.59 31.51 31.24 31.44 32.73 SSIM 0.6726 0.8075 0.9213 0.92590.9263 0.941005. 实验评估0雨滴去除:按照先前的方法[20],我们对Y通道(在YCbCr颜色空间中)进行定量评估(PSNR/SSIM分数)。表1报告了在所有五个数据集上的结果,SPAIR始终相对于基线获得显著的增益。与最近的算法MSPFN[20]相比,我们在所有数据集上获得了2.16dB的性能提升(平均)。接下来,为了与RCDNet[56]进行公平比较,我们在他们的设置中评估SPAIR(在表2中),通过在具有挑战性的Rain100H [66]和SPANet[58](在真实世界多雨场景中捕获)数据集上进行训练和测试。尽管在非常大的雨(Rain100H)上改进不大(0.41dB),但在雨密度较低的数据集上,例如SPANet和Rain100L,改进达到了3dB(因为在这种情况下,我们有选择地处理很少的像素而不影响干净的像素),突出了我们的失真自适应恢复的优势。图4展示了来自Rain100H数据集的具有挑战性图像的定性比较。我们的结果在视觉质量上明显优于现有方法,这些方法无法恢复背景纹理(第一行)并引入了伪影(第二行)。SPAIR对场景和雨滴密度的变化具有鲁棒性,它能够有效地去除不同方向和大小的雨滴,并生成视觉上令人满意且与真实图像相符的图像。0去除雨滴:表3和图5显示了与最近方法[ 42 , 44 , 32]的定性和视觉比较。SPAIR在很大程度上优于基线。我们的结果在视觉上更接近GT,并且在感知上优于竞争方法,后者通常包含伪影或RMSES32.12 19.82 18.95 14.98 10.33 9.48 8.99 8.148.05RMSENS 7.1914.83 7.467.296.936.14 6.33 6.045.47RMSE10.97 15.63 9.308.537.476.67 6.95 6.375.88Xu et al. [63]21.00 0.741--27.14 0.830DeblurGAN [24]28.70 0.85824.51 0.87127.97 0.834Nah et al. [35]29.08 0.91425.73 0.87427.87 0.827Zhang et al. [73]29.19 0.931--27.80 0.847DeblurGAN-v2 [25] 29.55 0.93426.61 0.87528.70 0.866 29.69SRN [53]30.26 0.93428.36 0.91528.56 0.867 31.38Shen et al. [49]30.26 0.94028.89 0.930--Purohit et al. [40] 30.58 0.941----Purohit et al. [38] 30.73 0.942----DBGAN [74]31.10 0.94228.94 0.915--MT-RNN [37]31.15 0.94529.15 0.918--DMPHN [70]31.20 0.94029.09 0.92428.42 0.860RADN [39]31.76 0.95229.68 0.927--Suin et al. [51]31.85 0.94829.98 0.930--SPAIR32.06 0.95330.29 0.93128.81 0.875 31.8223150输入JORDER [ 66 ] Fu et al. [ 8 ] RESCAN [ 28 ] PReNet [ 46 ] SPANet [ 58 ] RDCNet [ 56 ] SPAIR GT 图4.Rain100H测试集上缩放结果的定性比较。0输入AGAN [ 42 ] DuRN [ 32 ] SPAIR GT 输入AGAN [ 42 ] DuRN [ 32 ] SPAIR GT 图5. AGAN测试集[ 42]上结果的定性比较。0表4. ISTD数据集[ 57]上的去除阴影结果。下标S和NS分别表示阴影和非阴影区域。0度量输入[ 64 ] [ 14 ] [ 11 ] [ 57 ] [ 16 ] [ 75 ] [ 1 ] SPAIR0颜色失真。去除阴影:我们将我们的去除阴影模型与传统方法[ 14 , 11 , 64 ]和基于学习的方法(包括ST-CGAN [ 57],DSC [ 16 ],DeShad- owNet [ 43])进行比较。按照先前的方法,在Lab颜色空间中使用RMSE分数评估结果,该分数是在阴影和非阴影区域上计算的。图6和表4显示,尽管基于CNN的设计优于手工制作的方法,但大多数现有方法在阴影边界或颜色一致性方面产生阴影边界或颜色不一致性。然而,SPAIR在阴影边界上几乎没有伪影,在定性和定量方面都优于基线。0去模糊:我们在3个基准测试集上验证了我们的失真引导方法用于一般运动去模糊:GoPro [ 35 ],HIDE [ 49]和最近的RealBlur-J [ 47]的实际模糊图像。我们在表5中报告了与现有去模糊方法的定量比较。总体而言,SPAIR在其他算法中表现出色。请注意,尽管仅在GoPro上进行训练,但它在HIDE上优于所有方法,而无需任何人工边界框监督,从而展示了其强大的泛化能力。我们在RealBlur-J [ 47]测试集上以两种实验设置进行模型评估:1)在GoPro上训练(用于测试对真实图像的泛化能力),2)在RealBlur-J上训练。在设置1中,SPAIR在DM-PHN模型[ 70]上获得了0.39dB的性能提升,在设置2中,SPAIR在现有最佳方法上获得了0.44dB的性能提升。我们模型的有效性归功于鲁棒的失真感知方法。在包含动态和0表5. 去模糊结果。我们的方法仅在GoPro数据集[ 35]上进行训练,并直接应用于HIDE[ 49 ]和RealBlur-J[ 47]数据集的测试图像。在RealBlur-J数据集上进行训练和测试后,得到PSNR ‡得分。0GoPro [ 35 ] HIDE [ 49 ] RealBlur-J [ 47 ] 方法 PSNR SSIM PSNR SSIM PSNR SSIM PSNR ‡0图7显示了3D场景。通常,先前的工作结果存在不完全去模糊或伪影。相比之下,我们的网络在保持锐度的同时展示了非均匀去模糊能力。在包含文本、边界和纹理的区域中,场景细节得到了更加真实的恢复,使其可识别。06. 网络分析0本文探讨了失真定位引导特征调制和稀疏处理在空间变化恢复任务中的优势。表6定量评估了AGAN(雨滴)和GoPro(运动模糊)数据集上个别设计选择对SPAIR性能的影响。为了验证我们的设计选择,我们实现了以下基准(在表6中报告)。Net1:密集编码器-解码器网络(我们的NetR的CNN骨干)带有少量额外参数以匹配Net L。Net2:使用SFM引导NetL指导Net1。Net3:将解码器中的所有稠密连接卷积块替换为SC模块的Net2。Net4:在解码器中引入非局部(NL)层[ 59]的Net3。Net5:在NL模块之外,Net4包含了提出的SNL模块。Net1在两个任务上的良好基准分数支持我们的骨干设计选择。SFM的有效性:Net2引入了SFM块(第3.2.1节),使用NetL的掩模和特征在多个中间层级上引导恢复网络。与Net1相比的显著精度提高证明了退化引导的好处。SC和SNL模块的效果:Net4在解码器中使用了通用的非局部层[ 59]进行全局上下文聚合。Net5的结构与Net4相同(不包括NL模块),并将预测的掩模作为输入馈送给SNL模块。行为和性能的改进归因于SNL设计,它使用明确的失真引导来引导像素注意力。SNL比NL更适合退化和清晰区域。如方程4所解释的,在恢复退化像素时,SNL仅为来自图像中仅包含清晰像素的特征分配动态估计的非零权重。根据设计,它不改变清晰区域的特征。如表6所报告的,Net3Blurred ImageBlurred patchSRNDelurGAN-V2Stack(4)-DMPHNMTRNNSuin et al.SPAIRFigure 7. Visual comparisons of zoomed-in results of competing deblurring models on images from the GoPro test set [36].MethodsDEDSFMSCNLSNLPSNRRaindropMotion BlurNet1✓30.7230.85Net2✓✓31.3931.44Net3✓✓✓31.8031.62Net4✓✓✓✓32.1731.79SPAIR✓✓✓✓32.7332.06additional parameters to match NetL. Net2: Net1 guidedby NetL using SFM. Net3: Net2 with all densely connectedconvolutional blocks in decoder replaced with SC modules,Net4: Net3 with non-local (NL) layer [59] introduced in thedecoder. Net5: Net4 containing the proposed SNL moduleinstead of NL. Good baseline scores of Net1 for both taskssupport our backbone design choice.Effectivenes of SFM: Net2 introduces SFM blocks (Sec.3.2.1) which guide restoration network using mask and fea-tures of NetL at multiple intermediate levels.The sig-nificant improvement in accuracy in comparison to Net1demonstrates the benefit of degradation guidance.Effect of SC and SNL modules: Net4 employs the generalnon-local layer [59] in decoder global context aggregation.Net5 has the same structure as Net4 (sans the NL module),and it feeds the predicte
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功