Uformer：一种用于图像恢复的Transformer架构

132 浏览量更新于2023-10-25 收藏 1.11MB PDF 举报

图像恢复

图像去噪

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17683Uformer-BUformer-SNBNetUformer-TUNet-BMPRNetMIRNetUNet-TUNet-SCycleISP达内VDNUformer：一种用于图像恢复的王振东1李晓东2 <$鲍建民周文刚1刘建庄3李厚强11中国科学技术大学2澳门大学3华为诺亚摘要在本文中，我们提出了Uformer，一个有效的和高效的基于Transformer的图像恢复架构在Uformer中，有两个核心设计。首先，我们介绍了一种新的局部增强窗口（LeWin）Transformer块，它执行基于非重叠窗口的自注意，而不是全局自注意。它在捕获局部上下文的同时显著降低了高分辨率特征图的计算复杂度。第二，我们提出了一个可学习的多尺度恢复调制器的形式的多尺度空间偏置，以调整在多个层的Uformer解码器的功能。我们的调制器表现出卓越的能力，恢复各种图像恢复任务的细节，同时引入边际额外的参数和计算成本。在这两种设计的支持下，Uformer具有捕获本地和全局依赖关系以进行图像恢复的高能力。为了评估我们的方法，进行了大量的实验，在几个图像恢复任务，包括图像去噪，运动去模糊，散焦去模糊和去噪。没有花里胡哨，我们的Uformer实现了卓越的或可比的性能相比，国家的最先进的算法。代码和模型可在https：//github.com/ZhendongWang6/Uformer网站。1. 介绍随着消费者和工业照相机以及智能电话的快速发展，去除不希望的劣化（例如，图像中的噪声、模糊、雨等）不断增长。恢复真正的图像从他们的退化版本，即，图像复原是计算机视觉中的经典任务最近的最先进的方法[9，47，74，76，77]大多是基于ConvNet的，其取得了令人印象深刻的结果，但在捕获方面存在局限性这部分工作是在华为诺亚方舟实验室实习期间完成的†通讯作者。39岁839岁639岁4101 102 103对数尺度计算成本（GMAC）图1. SIDD数据集上的PSNR与计算成本 [1]。长期依赖。为了解决这个问题，一些最近的工作[31，39，83]开始在低分辨率特征图中采用单个或几个自注意层，这是由于自注意计算复杂度是特征图大小的二次方。在本文中，我们的目标是利用多尺度分辨率下特征映射的自注意能力来恢复更多的图像细节。为此，我们提出了Uformer，一个有效和高效的基于变换器的结构图像恢复。Uformer构建在优雅的架构UNet [49]上，其中我们将卷积层修改为Trans- former块，同时保持相同的整体分层编码器-解码器结构和跳过连接。我们提出了两个核心设计，使Uformer适合图像恢复任务。首先，我们提出了局部增强型 Windows（LeWin）Transformer模块，它是一个高效的基本组件.LeWin Trans-former块执行非重叠的基于窗口的自注意而不是全局自注意，这显著降低了高分辨率特征图的计算复杂度由于我们构建了分层特征图并保持窗口大小不变，因此基于窗口的低分辨率自注意能够捕获更多的全局依赖性。另一方面，局部背景对于图像恢复是必不可少的，为了更好地捕捉局部背景，我们在Transformer块中的前馈网络的两个我们也注意到最近的作品[35，72]峰值信噪17684×将类似的设计用于不同的任务。其次，我们提出了一个可学习的多尺度恢复调制器来处理各种图像退化。调制器被公式化为多尺度空间偏置以调整Uformer解码器的多个层中的特征。具体而言，可学习的基于窗口的张量被添加到每个LeWinTransformer块中的特征中，以适应用于恢复更多细节的特征。该算法操作简单，基于窗口机制，可以灵活地应用于不同框架下的各种图像恢复任务。在上述两种设计的基础上，多级或多尺度框架[77，78] 和高级损失函数 [28 ， 29] ，我们简单的 U 形Transformer结构在多个图像恢复任务上实现了最先进的性能。对于去噪，Uformer在SIDD [1]和DND [46]基准上分别优于先前最先进的方法（NBNet [9]）0.14 dB和0.09 dB。对于运动模糊去除任务，Uformer实现了最佳（Go- Pro [45]，RealBlur-R [48]和RealBlur-J [48]）或竞争性（HIDE [52]）性能，显示了其强大的去模糊能力。Uformer还显示了散焦去模糊任务[3]的潜力，并且比先前的最佳模型[54]高出1.04dB。此外，在SPAD数据集[61]上，其在PSNR上获得了47.84dB，比先前的现有技术方法[47]提高了3.74dB我们希望我们的工作将鼓励进一步的研究，探索基于Transformer的图像恢复架构。总的来说，本文的贡献总结如下：我们提出 Uformer ，一个通用的和优越的 U 形Transformer的各种图像恢复任务。Uformer是建立在基本的LeWin Transformer块上的，它既高效又有效。我们提出了一个额外的轻量级可学习的多尺度恢复调制器来调整多尺度功能。这种简单的设计显著提高了成像质量。大量的实验表明，Uformer建立了新的国家的最先进的各种数据集的图像恢复任务。2. 相关工作图像恢复架构。图像恢复的目的是从其退化版本恢复干净的图像一种流行的解决方案是使用具有跳跃连接的U形结构来学习有效的模型，以分层捕获多尺度信息用于各种图像恢复任务，包括图像去噪[9，74，77]，去模糊[3，28，29]和去噪[38，55]。一些图像恢复方法受到快速发展的关键洞察力的启发图像分类的操作[17，21，27]。例如，基于ResNet的结构已广泛用于一般图像恢复[42，83]以及图像恢复中的特定任务，如超分辨率[37，84]和图像去噪[16，81]。也有基于DenseNet的方法[40，41，84]。更多基于CNN的图像恢复架构可以在最近的调查[32，57，65]和NTIRE挑战[2]中找到。直到最近，一些研究开始探索注意力机制来提高性能。例如，挤压和激励网络[20]和非局部神经网络[63]激发了用于不同图像恢复任务的方法分支，例如超分辨率[36，82]，去噪[33，61]，去噪[76，77]，去模糊[47，77]，去阴影[11，12]等。我们的Uformer还应用层次结构来构建多尺度特征，同时使用新引入的LeWinTransformer块作为基本构建块。视觉变形金刚。 Transformer [59] 在自然语言处理（NLP）方面表现出显著的性能。与CNN的设计不同，基于Transformer的网络结构天生擅长通过全局自关注来捕获数据中的长距离Transformer在自然语言处理领域的成功也给计算机视觉研究者以启发。ViT的开创性工作[15]直接在中等大小（16 16）的扁平补丁上训练纯基于Transformer的架构。通过大规模数据预训练（即，JFT-300 M），与最先进的CNN相比，ViT在图像分类方面获得了出色的自ViT引入以来，人们已经做出了许多努力来降低全局自注意的二次计算成本，使Transformer更适合于视觉任务。一些作品[19，62]专注于建立类似于基于ConvNet的结构的金字塔Transformer架构。为了克服原始自注意的二次复杂性，自注意在局部窗口上进行晕圈操作或窗口移位[43，58]，以帮助跨窗口交互，并获得有希望的结果。最近的作品[10，14，23，70，85]不是专注于图像分类，而是提出了一系列基于Transformer的骨干，用于更一般的高级视觉任务。除了高级区分性任务，还有一些基于Transformer的作品[25，68，86]用于生成性任务。虽然在视觉领域有大量的探索，但将Transformer引入低层次视觉仍然缺乏探索。早期的工作[69]利用自注意机制来学习纹理以实现超分辨率。至于图像恢复任务，IPT [8]首先在多任务学习框架内应用标准的Trans-former块然而，IPT依赖于大规模合成数据集和多任务学习的预训练。相比之下，我们设计了一个通用的U形变换器为基础的结构，这被证明是高效和有效的图像恢复。···17685∈×∈××∈×2L2L3××C××��2��×2×2��…16× 16退化图像输入投影×��1Lewin块×��×��2Lewin块×��...×��5Lewin块调制器恢复图像输出投影LeWin块12Lewin块下采样上采样（一）（b）第（1）款特征图（c）第（1）款图2. (a)Uformer概述。(b)LeWin Transformer块。(c)调制器如何调制每个LeWin Transformer块中的W-MSA的图示，其在（b）中被命名为MW-MSA。3. 方法在本节中，我们首先描述用于图像恢复的Uformer的整体流水线和层次结构。然后，我们提供了Uformer的基本组件LeWin Transformer块的详细信息在此基础上，我们提出了多尺度恢复调制器。3.1. 整体管道如图2（a）所示，所提出的Uformer的总体结构是在编码器和解码器之间具有跳跃连接的U形分层网络。具体来说，给定一幅退化图像IR3× H × W，Uformer首先应用LeakyReLU的3× 3卷积层来提取低级特征X0RC×H × W。接下来，在U形结构的设计之后[24，49]，特征图X0通过K个编码器级。每个阶段都包含一个LeWin Transformer 块堆栈和一个下采样层。 TheLeWin Trans- former block takes advantage of the self-attentionmecha-nismforcapturinglong-rangedependencies, and also cuts the computational cost dueto the usage of self-attention through non-overlappingwindows on the feature maps. 在下采样层，我们首先将扁平化的特征重塑为2D空间特征图，然后对地图进行下采样，使用步长为2的4 4 例如，给定输入特征图X0∈RC×H ×W，编码器的第l级产生我们使用步长为2的转置卷积进行上采样。此图层减少了一半的特征通道，并将特征贴图的大小加倍。之后，输入到LeWin Transformer块的特征是上采样特征和来自编码器的对应特征通过跳过连接的级联。接下来，利用LeWin Transformer块来学习恢复映像。在K个解码器阶段之后，我们将平坦化的特征重塑为2D特征图，并应用3 3卷积层以获得残差图像RR3×H ×W。最后通过 I′=I+R 得到恢复图像。我们使用Charbonnier损失训练Uformer [7，76]：l（I′，I）=.||2+12，（1）||2+ϵ2,(1)式中，ΣI是地面实况图像，Σ =10−3是所有实验中的常数。3.2. LeWin Transformer模块将Transformer应用于图像恢复存在两个主要挑战。首先，标准Transformer架构[15，59]在所有令牌之间全局计算自注意力，这导致了相对于令牌数量的二次计算成本。在高分辨率特征地图上应用全局自注意是不合适的。其次，局部上下文信息对于图像恢复任务是必不可少的，因为退化像素的邻域特征图X∈R2lC×H×W.可以用来恢复其干净的版本，但以前的然后，在编码器的末端添加具有LeWin Trans-former块的堆栈的瓶颈阶段。在这个阶段，由于分层结构，Transformer块捕获更长的依赖关系（当窗口大小等于特征图大小时甚至是全局的）。对于特征重构，所提出的解码器还包含K个阶段。每个都由一个上采样层和一个LeWin Transformer块堆栈组成，类似于编码器。works [35，66]建议Transformer在捕获本地依赖性方面显示出限制。为了解决上述两个问题，我们提出了局部增强的Window（LeWin）Transformer块，如图2（b）所示，其受益于Transformer中的自关注以捕获长程依赖性，并且还将卷积运算符涉及到Transformer中以捕获有用的局部上下文。具体来说，考虑到LeffLNW/MW -MSALNMSAMSAMSA调制器窗口L+…17686∈∈×联系我们××∈∈KM2KKKkkkk在第（l-1）个块Xl−1处，我们用两个核心设计构建块：（1）非重叠的基于窗口的多头自注意（W-MSA ）和（ 2 ）局部增强前馈网络（ LeFF ）。LeWinTransformer块的计算在我们的框架中的每个阶段的偶数LeWin Transformer块中使用了移位窗口策略[43]，这只给出了稍微好一点的结果。X′l=W-MSA（ LN（Xl−1））+Xl−1，X1=LeFF（ LN（X′1））+X′1，（二）其中X'l和Xl分别是W-MSA模块和LeFF模块的输出。LN表示层归一化[5]。在下文中，我们分别阐述W-MSA和LeFF基于窗口的多头自注意（W-MSA）。与传统的全局自注意算法不同，我们在非重叠的局部窗口内进行自注意给定2D特征图XRC×H ×W，其中H和W是地图的高度和宽度，我们将X分成不重叠的窗口，窗口大小为M×M，然后得到平坦化和转置的特征XiRM2× C从每个窗口i。接下来，我们对每个窗口中的展平特征执行自关注假设头部数为 k ，头部维数为 dk=C/k 。 Thencomputing the k-th head self-attention in the non-overlapping windows can be formulated as follows,X={X1，X2，···，XN}，N=HW/M2，Yi=Attention（XiWQ，XiWK，XiWV），i=1，···，N，图3.本地增强前馈网络。局部增强前馈网络（LeFF）。正如以前的作品[66，72]所指出的，标准Transformer中的前馈网络（FFN）在利用本地上下文方面的能力有限。实际上，相邻像素是图像恢复的关键参考[6，22]。为了克服这个问题，我们在我们的基于transformer的结构中向FFN添加了一个深度卷积块，遵循最近的工作[35，50，72]。如图3所示，我们首先将线性投影层应用于每个令牌以增加其特征维度。接下来，我们将令牌重塑为2D特征图，并使用3 - 3深度卷积来捕获本地信息。然后，我们将特征平坦化为令牌，并通过另一个线性层缩小通道以匹配输入通道的维度。我们使用GELU [18]作为每个线性/卷积层之后的激活函数。3.3. 多尺度恢复调制器不同类型的图像退化（例如，模糊，噪音，X={Y1，Y2，···，YN}，k k k（三）雨等）都有自己独特的扰动模式处理或恢复。为了进一步提高其中WQ，WK，WV∈RC× dk 表示投影第k个头的查询、键和值的矩阵，关于每个。 Xk是第k个磁头的输出。然后，所有磁头1、2、.、k的输出被连接，然后被线性投影以得到最终结果。灵感来自以前工作[43，51]，我们还将相对位置编码应用到注意力模块中，因此注意力计算可以公式化为：QKTAttention（Q，K，V）= SoftMax（Kld+B）V，（4）其中，B是相对位置偏差，其值取自R（2M−1）×（2M−1），参数可学习[43，51]。与全局自注意相比，基于窗口的自注意可以显著降低计算成本。给定特征映射XRC× H × W，计算复杂度从O（H2W2C）降到O（HVM4C）=O（M2HWC）.由于我们将Uformer设计为分层架构，因此我们基于窗口的低分辨率自注意特征图适用于更大的感受野，并且足以学习远程依赖关系。我们也尝试一个轻量级的多尺度恢复调制器来校准的功能，并鼓励更多的细节恢复。如图2（a）和2（c）所示，多尺度调制器在Uformer解码器中应用多个调制器。特别地，在每个LeWinTransformer块中，调制器被公式化为具有M M C形状的可学习张量，其中M是窗口大小，C是当前特征图的通道维度。每个调制器被简单地用作在自注意模块之前被添加到所有非重叠窗口中的共享偏置项由于这种轻量级加法运算和窗口大小的形状，多尺度恢复调制器引入了边际额外参数和计算成本。我们证明了多尺度恢复调制器在两个典型图像恢复任务上的有效性：图像去模糊和图像去噪。可视化比较如图4所示。我们观察到，添加多尺度恢复调制器使得更多的运动模糊/噪声图案被去除，并且产生更清晰的图像。这些结果表明，我们的多尺度恢复调制器真正有助于恢复恢复细节很少1x1转换重塑3x3深度方向转换变平1x1转换Uformer接近各种扰动，我们建议17687×(a) w/o调制器（b）w/调制器（c）目标(d)w/o调制器（e）w/调制器（f）目标图4.多尺度恢复调制器对图像去模糊（来自GoPro [45]的顶部样本）和去噪（来自SIDD [1]的底部样本）的影响。与（a）相比，Uformer w/Modulator（b）可以去除更多的模糊并且准确地恢复数字。与（d）相比，通过Uformer w/ Modulator（e）恢复的图像更接近目标，具有更多细节。计算成本一种可能的解释是，在解码器的每个阶段添加调制器使得能够灵活地调整特征图，这提高了用于恢复细节的性能这与之前的工作StyleGAN [26]一致，该工作使用多尺度噪声项添加到卷积特征，其实现了用于生成照片真实感图像的随机变化4. 实验在本节中，我们首先讨论实验装置。在此基础上，我们在8个数据集上验证了Uformer在各种图像恢复任务上的有效性和效率最后，我们进行全面的消融研究，以评估我们提出的Uformer的每个组件。4.1. 实验装置基本设置。遵循Transformer [ 59 ]的常见训练策略，我们使用AdamW优化器[44]训练我们的框架，其中动量项为（0. 九比零。999）和0.02的重量衰减。我们使用水平翻转随机增加训练样本，并将图像旋转90◦，180◦或270◦。我们使用余弦衰减策略将学习率降低到1e-6，初始学习率为2e-4。我们在所有LeWin Transformer块中将窗口大小设置为8 8。Uformer编码器/解码器级的数量K默认等于4。并且Transformer块中的每个头部的尺寸dk等于C。更多特定于数据集的实验设置可参见补充材料。体系结构变体。为了进行简洁的描述，我们在实验中引入了三种 Uformer 变体， Uformer- T （微小）、Uformer-S（小型）和Uformer-B（基本），方法是设置不同的Transformer特征通道C以及每个编码器和解码器级中的Transformer块的详情如下：• Uformer-T：C=16，编码器的深度={2，2，2，2}，• Uformer-S：C=32，编码器的深度={2，2，2，2}，• Uformer-B：C=32，编码器的深度= {1，2，8，8}，解码器的深度是编码器的镜像深度。评估指标。我们采用了常用的峰值信噪比和SSIM [64]度量来评估恢复性能。这些度量是在RGB颜色空间中计算的，除了deraining，我们在YCbCr颜色空间中的Y通道上评估PSNR和SSIM，遵循先前的工作[60]。方法SiddPSNR↑[1]第一章SSIM↑DNPSNRD↑[46个]SSIM↑BM3D [13]25.650.68534.510.851RIDNet [4]38.710.91439.260.953VDN [73]39.280.90939.380.952DANet [74]39.470.91839.590.955CycleISP [75]39.520.95739.560.956MIRNet [76]39.720.95939.880.956MPRNet [77]39.710.95839.800.954NBNet [9]39.750.95939.890.955Uformer-B39.890.96040.040.956表1.SIDD [1]和DND [46]数据集上的去噪结果4.2. 真实噪声消除表1报告了SIDD [1]和DND [46]数据集上的真实噪声去除结果。我们将Uformer与8种最先进的去噪方法进行比较，包括基于特征的BM 3D [13]和7种基于学习的方法：RID- Net [4]，VDN [73]，CycleISP [75]，NBNet[9]，DANet [74]，[76]《易经》：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！”，13.14冉子退朝。我们的Uformer-B实现了39.89 dB的PSNR，超过所有其他方法，至少0.14dB。对于DND数据集，我们遵循常见的评估策略，并通过在线服务器测试来测试我们在SIDD上训练的模型。 Uformer优于先前最先进的方法 NBNet [9] 0.09dB。为了验证增益是否受益于更多的计算成本，我们提出的结果PSNR与。图1中的计算成本。我们注意到，我们的Uformer-T可以实现更好的性能比大多数模型，但以最少的计算成本，这证明了Uformer的效率和有效性。我们还在图5中展示了SIDD和DND数据集上的定性结果，其中Uformer不仅可以成功去除噪声，而且还可以保留纹理细节。此外，我们在表3和图6中给出了与IPT [8]去噪的定量和定性比较。我们观察到Uformer在SIDD和DND上显著优于IPT，具有少得多的GMAC和参数，同时不需要大规模的预训练。4.3. 运动模糊消除对于运动模糊去除，Uformer也显示了最先进的性能。我们遵循以前的方法[77]，17688输入/ 31.46 dBVDNet / 40.41 dB输入/ 18.01 dBVDNet / 34.44 dBDANet / 34.73 dB周期ISP/ 34.70 dBNBNet / 34.84 dB输入输入RIDNet / 33.77 dBRIDNet / 40.43 dBMIRNet / 34.84 dBMIRNet / 41.05 dBMPRNet / 34.71 dBDANet / 40.56 dBMPRNet / 41.04 dBUformer-B /35.05 dB周期ISP/ 40.39 dBUformer-B /41.29 dB目标NBNet / 41.12 dBBM3D /36.26dB图5.与最先进的实际噪声去除方法进行视觉比较上图来自SIDD [1]，下图来自DND [46]。方法GoPro [45]隐藏[52][48]第四十八话[48]第四十八话PSNR↑ SSIM↑ PSNR↑ SSIM↑ PSNR↑ SSIM↑ PSNR↑ SSIM↑Nah等人[45个]29.080.91425.730.87432.510.84127.870.827[28]第二十八话28.700.85824.510.87133.790.90327.970.834Xu等[67个]21.000.741--34.460.93727.140.830[29]第二十九话29.550.93426.610.87535.260.94428.700.866DBGAN [80]31.100.94228.940.915----[47]第四十七话32.060.95330.290.931--28.810.875†Zhanget al.[79个]29.1930.2631.2032.660.9310.9340.9400.959-28.3629.0930.96-0.9150.9240.93935.4835.6635.7035.990.9470.9470.9480.95227.8028.5628.4228.700.8470.8670.8600.873[56]第五十六话[78]第78话[77]第十七话Uformer-B33.060.96730.900.95336.190.95629.090.886表2.运动去模糊的结果在私下工作之后[28，29，77]，我们的Uformer只在GoPro数据集上训练[45]。然后，我们将我们的GoPro训练模型直接应用于HIDE数据集[52]和RealBlur数据集[48]，以评估真实场景的泛化†表示用于更好性能的循环/多级设计GMAC#参数SID峰值信噪比D↑[1]第一章SSIM↑DNPSNRD↑[46个]SSIM↑[8]Uformer-B粤ICP备16038888号-189.46G115.31M50.88M39.1039.890.9540.96039.6240.040.9520.956表3. [18]《易经》中的阴阳五行，是阴阳五行之一。[48]）。我们将Uformer与十种最先进的方法进行比较：Nah等人[45]，DeburGAN [28]，Xuet al. [67]，DeburGAN-v2 [29] ， DBGAN [80] ， SPAIR [47] ，Zhangetal. [79][56][79][59][ 的结果报告于表2中。对于合成去模糊，Uformer在GoPro上的性能明显优于之前的最先进方法[77]，并显示了比较结果。(a)投入（b）IPT（c）Uformer-B（d）目标图6.IPT [8]和Uformer用于去噪的视觉比较在GoPro数据集上训练Uformer，并在四个数据集上进行测试：两个合成数据集（HIDE [52]和GoPro的测试集[45]）和两个真实世界数据集（RealBlur-R17689HIDE数据集上的简单结果至于真实世界的去模糊，模糊的原因是复杂的，因此任务通常更具挑战性。我们的Uformer优于其他方法至少0.23 dB和0.36 dB的RealBlur-R和RealBlur-J，restriction，表现出较强的泛化能力。此外，我们认为，17690×DMENetJNBDPDNet[30]第三届全国政协副主席PSNR↑23.4123.84 25.1325.24沪ICP备05000000号-1Uformer-B26.280.891我们在图7中示出了一些视觉结果。与其他方法相比，Uformer恢复的图像更清晰，更接近地面真实。4.4. 散焦模糊消除我们对DPD数据集执行散焦模糊去除[3]。表4和图8分别报告了定量和定性结果。Uformer实现了比先前最先进的方法 KPAC [54] 、 DPDNet [3] 、 JNB [53] 和DMENet [30]更好的性能（1.04 dB、1.15 dB、1.44 dB和1.87 dB）。从可视化结果中，我们观察到Uformer恢复的图像更清晰，更接近地面实况图像。表4.DPD数据集[3]上的散焦模糊去除结果。4.5. 真正的除我们在SPAD [ 61 ]上进行了去重实验，并与6种去重方法进行了比较：GMM [34]、RES-CAN [33]、SPANet [61]、JORDER-E [71]、RCDNet [60]，[47]第47话如表5所示，Uformer表现出明显更好的性能，比之前的最佳工作[47]提高了3.74 dB。这表明Uformer 在这个真实的 deraindataset 上具有强大的deraining能力。我们还在图8中提供了可视化结果，其中Uformer可以更成功地去除雨水，同时引入更少的伪影。GMM[34]RESCAN[33]Spanet[61]JORDER-E[71]刚果民盟网络[60][47]第四十七话Uformer-BPSNR↑SSIM↑34.300.942838.110.970740.240.981140.780.981141.470.983444.100.987247.840.9925表5.SPAD数据集上的结果[61]用于实际降雨去除。4.6. 消融研究在本节中，我们详细分析了Uformer的各个组成部分的作用。使用不同的变体对图像去噪（SIDD [1]），去模糊（GoPro [45]，RealBlur [48]）和去噪（SPAD[61]）进行评估。消融结果见表6Transformer与卷积我们将Uformer中的所有LeWin Transformer块替换为基于卷积的ResBlocks [9]，从而产生所谓的“UNet”，同时保持所有其他块不变。与Uformer变体类似，我们设计了UNet-T/-S/-B：• UNet-T：C=32，编码器的深度={2，2，2，2}，• UNet-S：C=48，编码器的深度={2，2，2，2}，GMAC#参数PSNR↑UNet-T15.49G9.50M39.62UNet-S34.76G21.38M39.65UNet-B86.97G53.58M39.71ViT8.83G14.86M38.51Uformer-T12.00G5.23M39.66Uformer-S43.86G20.63M39.77Uformer-B89.46G50.88M39.89表6.SIDD数据集上不同去噪网络架构的比较[1]。W-MSAFFNGMAC#参数PSNR↑Uformer-S（SIDD[1]）- -C-- -C键43.00G 20.47M43.64G 20.59M43.86G 20.63M39.7439.7239.77Uformer-B（RealBlur-R/-J[48]）- -C C- -C键88.31G 50.45M90.31G 51.20M89.46G 50.88M36.15/28.9936.19/28.8536.22/29.06表7.不同模块中增强局部性的效果• UNet-B：C=76，编码器的深度= {2，2，2，2}，并且解码器的深度是编码器的镜像深度。表6报告了比较结果。我们观察到，Uformer-T达到39.66 dB，并且以更少的参数和更少的计算优于UNet-T0.04 dB。Uformer-S达到39.77 dB，比UNet-S高出0.12 dB，参数较少，计算成本略高。Uformer-B达到39.89 dB，优于UNet-B 0.18 dB。这项研究表明，与原始卷积块相比，所提出的LeWin Transformer块的有效性。层次结构与单尺度我们进一步建立了一个基于ViT的架构，它只包含一个单一的尺度的图像去噪的特征图。该架构采用两个卷积层的头部用于从输入图像中提取特征，并且还采用两个卷积层的尾部在头部和尾部之间使用12个标准Transformer块。我们在补丁大小为16 16的情况下训练隐藏维度为256的ViT。的结果列于表6中。我们观察到香草ViT结构得到了一个令人不满意的结果相比，UNet，而我们的Uformer显着优于基于ViT和UNet架构，这表明了图像恢复的分层结构的有效性。在哪里提高地方性？表7比较了自注意力计算[66]或基于Uformer-S和Uformer-B的前馈网络中无局部性增强和增强局部性的结果。我们观察到，在前馈网络中引入局部性会产生0.03 dB （ SIDD ）， 0.07 dB （ RealBlur-R ） /0.07 dB（RealBlur-J）超过基线（无局部增强），而将局部性引入自注意产生-0.02 dB（SIDD）。此外，我们结合引入本地化到饲料-17691输入输入DBGANDMPHN去模糊GAN-v2MPRNetUformer-B目标23.21分贝27.26分贝24.56分贝25.73分贝28.90分贝30.95分贝输入输入DBGANDMPHN去模糊GAN-v2MPRNetUformer-B目标24.46分贝28.13分贝27.30分贝26.38分贝27.58分贝28.31分贝图7.与GoPro数据集上最先进的方法进行视觉比较[45]以去除运动模糊输入DPDNetKPACUformer-B输入DPDNetKPACUformer-B27.49分贝28.64分贝28.46分贝30.32分贝21.02分贝22.37分贝22.23分贝23.02分贝输入SPAN etRCDNetUformer-B输入SPAN etRCDNetUformer-B30.80分贝37.59分贝39.00分贝46.51分贝31.86分贝41.99分贝43.00分贝49.32分贝图8.顶行：与DPD数据集[3]上用于散焦模糊去除的最先进方法的视觉比较底行：与SPAD数据集[61]上最先进的方法进行视觉比较，以实现真正的降雨去除。前向网络，引入自我注意。RealBlur-R/-J上的结果也从36.22 dB/29.06 dB下降到36.19 dB/28.85 dB，表明与将局部性引入自注意相比，将局部性引入前馈网络更适合图像恢复任务。GoPro [45]Uformer-TSIDD [1]Uformer-BSPAD [61]Uformer-B调制器- -C键- -C键- -C键PSNR↑29.1129.5739.8639.8947.4347.84表8.多尺度恢复调制器的效果多尺度恢复调制器的效果。在表8中，为了验证调制器的效果，我们在GoPro上进行了图像去模糊实验，在SIDD上进行了图像去噪实验，在SPAD上进行了去噪实验。对于去模糊，我们观察到w/ modulator可以带来0.46dB的性能改善，这表明调制器对去模糊是有效的我们还比较了Uformer-B在SIDD和SPAD上的结果，比较表明，所提出的调制器分别带来了0.03 dB的改善（SIDD）和0.41 dB的改善（SPAD）。在图4中，我们提供了Uformer w/和wo/调制器的视觉比较。本研究可以在补充材料中找到。5. 讨论和结论在本文中，我们提出了一个替代的架构Uformer的图像恢复任务，通过引入Transformer块。与现有的基于ConvNet的结构相比，我们的Uformer建立在主要组件LeWin Transformer块的基础上，它不仅可以处理本地上下文，还可以有效地捕获远程依赖关系为了处理各种图像恢复退化，提高恢复质量，我们提出了一种可学习的多尺度恢复调制器插入到Uformer解码器。广泛的实验表明，Uformer实现了国家的最先进的性能，在几个任务，包括去噪，运动去模糊，散焦去模糊，和derining。Uformer还以更少的计算成本和更少的模型参数大大超过了UNet系列。谢谢。这项工作得到了国家自然科学基金项目61836011和62021001的部分资助，以及中国科学院青年创新促进会项目2018497的部分资助该系统还得到了中国科学技术大学信息科学与技术研究所MCC实验室搭建的GPU集群的支持。我们还要感谢MindSpore1对这项工作的部分支持，这是一个新的深度学习计算框架。验证了所提出的调制器可以带来额外的能力，还原更多细节更多关于modulus的信息1https://www.mindspore.cn/17692引用[1] Abdelrahman Abdelhamed，Stephen Lin，and Michael S.布朗智能手机相机的高质量去噪数据集。在CVPR，2018年。一、二、五、六、七、八[2] Abdelrahman Abdelhamed，Radu Schafte，and Michael S.布朗NTIRE 2019真实图像去噪挑战赛方法和结果。2019年CVPR研讨会。2[3] Abdullah Abuolaim和Michael S Brown。散焦去模糊-环使用双像素数据。在ECCV。Springer，2020年。二七八[4] 赛义德·安瓦尔和尼克·巴恩斯。基于特征关注的真实图像去噪。在ICCV，2019年。5[5] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.图层规范化。arXiv预印本arXiv：1607.06450，2016。4[6] A.布阿德斯湾Coll和J. - M.莫瑞尔一种非局部图像去噪算法。在CVPR，2005年。4[7] P. 沙博尼耶湖Bla

下载后可阅读完整内容，剩余1页未读，立即下载