高效Transformer模型Restormer在高分辨率图像恢复任务中取得最先进结果

178 浏览量更新于2023-10-25 收藏 24.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

140240340440540640740Number of Flops (G)31.031.331.631.932.232.532.833.1PSNR (dB)Restormer(Ours)IPT(CVPR21)MTRNN(ECCV20)MPRNet(CVPR21)MimoUNet+(ICCV21)DMPHN(CVPR19)DBGAN(CVPR20)[94][58][14][13][93][100]30130230330430530Number of Flops (G)28.529.530.531.532.533.5PSNR (dB)Restormer(Ours)MSPFN(CVPR20)PreNet(CVPR19)RESCAN(ECCV18)MPRNet(CVPR21)[93][64][43][32]140240340440540640740Number of Flops (G)27.527.627.727.827.928.028.128.228.328.4PSNR (dB)Restormer(Ours)DAGL(ICCV21)SwinIR(ICCVW21)DeamNet(CVPR21)DRUNet(TPAMI21)RNAN(ICLR19)[63][99][55][44][106]40140240340440540640740Number of Flops (G)38.839.039.239.439.639.840.040.2PSNR (dB)Restormer(Ours)Uformer(ArXiv21)MPRNet(CVPR21)DAGL(ICCV21)MIRNet(ECCV20)DeamNet(CVPR21)[63][55][80][93][92]57280Restormer: 高分辨率图像恢复的高效Transformer0Syed Waqas Zamir 1 Aditya Arora 1 Salman Khan 2 Munawar Hayat 2 , 30Fahad Shahbaz Khan 2 , 4 Ming-Hsuan Yang 5 , 6 , 701 Inception Institute of AI 2 Mohamed bin Zayed University of AI 3 Monash University 4Link¨oping Univeristy 5 University of California, Merced 6 Yonsei University 7 Google Research0摘要0由于卷积神经网络（CNN）在从大规模数据中学习可推广的图像先验方面表现良好，因此这些模型已广泛应用于图像恢复和相关任务。最近，另一类神经架构——Transformer，在自然语言和高级视觉任务上显示出显著的性能提升。虽然Transformer模型减轻了CNN的缺点（即有限的感受野和对输入内容的适应性），但其计算复杂度随着空间分辨率的增加呈二次增长，因此在涉及高分辨率图像的大多数图像恢复任务中无法应用。在这项工作中，我们通过在构建块（多头注意力和前馈网络）中进行几个关键设计，提出了一种高效的Transformer模型，使其能够捕捉长距离像素相互作用，同时仍然适用于大图像。我们的模型名为RestorationTransformer（Restormer），在包括图像去雨、单图像运动去模糊、焦点去模糊（单图像和双像素数据）以及图像去噪（高斯灰度/彩色去噪和真实图像去噪）在内的几个图像恢复任务上取得了最先进的结果。源代码和预训练模型可在https://github.com/swz30/Restormer上获得。01. 引言0图像恢复是通过从退化输入中去除退化（例如噪声、模糊、雨滴）来重建高质量图像的任务。由于其不适定性质，这是一个极具挑战性的问题，通常需要强大的图像先验来进行有效的恢复。由于卷积神经网络（CNN）在从大规模数据中学习可推广的先验方面表现良好，因此与传统的恢复方法相比，它们已成为首选。CNN中的基本操作是“卷积”，它提供了局部连接性和平移等变性。虽然这些属性为CNN带来了效率和泛化能力，但也引发了两个主要问题。(a)卷积运算符具有有限的感受野，因此无法对长距离像素依赖关系进行建模。(b)卷积滤波器在推理时具有静态权重，因此无法灵活地适应输入内容。为了解决上述问题，一种更强大和动态的替代方法是“自注意力（SA）”机制[17, 77, 79,95]，它通过对所有其他位置的加权求和来计算给定像素的响应。自注意力是Transformer模型的核心组件[34,77]，但具有独特的实现方式，即“多头自注意力”，它针对并行化和有效的表示学习进行了优化。Transformer在自然语言任务[10, 19, 49, 62]和高级视觉问题[11, 17, 76,78]上显示出了最先进的性能。尽管自注意力在捕捉长距离像素相互作用方面非常有效，但其复杂度随着空间分辨率的增加而呈二次增长，因此在高分辨率图像上应用是不可行的（这在图像恢复中经常发生）。最近，已经有一些努力将Transformer调整为图像恢复任务[13, 44,80]。为了减少计算负载，这些方法要么在每个像素周围的大小为8×8的小空间窗口上应用SA[44, 80]，要么0(a) 去模糊 (Tab. 2) (b) 去雨水 (Tab. 1)0(c) 高斯去噪 (Tab. 4) (d) 真实去噪 (Tab. 6)0图1.我们的Restormer在图像恢复任务中实现了最先进的性能，同时具有计算效率。0卷积神经网络（CNN）在从大规模数据中学习可推广的图像先验方面表现良好，因此这些模型已广泛应用于图像恢复和相关任务。最近，另一类神经架构——Transformer，在自然语言和高级视觉任务上显示出显著的性能提升。虽然Transformer模型减轻了CNN的缺点（即有限的感受野和对输入内容的适应性），但其计算复杂度随着空间分辨率的增加呈二次增长，因此在涉及高分辨率图像的大多数图像恢复任务中无法应用。在这项工作中，我们通过在构建块（多头注意力和前馈网络）中进行几个关键设计，提出了一种高效的Transformer模型，使其能够捕捉长距离像素相互作用，同时仍然适用于大图像。我们的模型名为RestorationTransformer（Restormer），在包括图像去雨、单图像运动去模糊、焦点去模糊（单图像和双像素数据）以及图像去噪（高斯灰度/彩色去噪和真实图像去噪）在内的几个图像恢复任务上取得了最先进的结果。源代码和预训练模型可在https://github.com/swz30/Restormer上获得。57290将输入图像分成大小为48×48的非重叠块，并在每个块上独立计算SA[13]。然而，限制SA的空间范围与捕捉真实的长距离像素关系的目标相矛盾，特别是在高分辨率图像上。在本文中，我们提出了一种适用于图像恢复的高效Transformer，能够建模全局连接性并适用于大图像。具体而言，我们引入了一个多Dconv头部“转置”注意力（MDTA）块（第3.1节），以取代传统的多头SA[77]，具有线性复杂度。它在特征维度而不是空间维度上应用SA，即MDTA通过计算特征通道之间的交叉协方差来获取（键和查询投影）输入特征的注意力图。我们MDTA块的一个重要特点是在特征协方差计算之前进行的局部上下文混合。这是通过使用1×1卷积对跨通道上下文进行逐像素聚合和使用高效深度卷积对局部上下文进行通道聚合来实现的。这种策略具有两个关键优势。首先，它强调了空间局部上下文，并在我们的流水线内引入了卷积操作的互补优势。其次，它确保在计算基于协方差的注意力图时隐式地对像素之间的全局关系进行建模。前馈网络（FN）是Transformer模型的另一个构建模块[77]，它由两个全连接层和一个非线性层组成。在这项工作中，我们重新定义了常规FN[77]的第一线性变换层，采用了门控机制[16]来改善网络中的信息流动。这个门控层被设计为两个线性投影层的逐元素乘积，其中一个使用GELU非线性激活函数[27]。我们的门控DconvFN（GDFN）（第3.2节）也基于类似于MDTA模块的局部内容混合，以同等强调空间上下文。GDFN中的门控机制控制哪些互补特征应该向前传递，并允许网络层次结构中的后续层专注于更精细的图像属性，从而产生高质量的输出。除了上述的架构创新外，我们还展示了我们的渐进学习策略对Restormer的有效性（第3.3节）。在这个过程中，网络在早期时期在小块和大批次上进行训练，而在后期时期则在逐渐增大的图像块和小批次上进行训练。这种训练策略有助于Restormer从大图像中学习上下文，并在测试时提供质量性能改进。我们进行了全面的实验，并展示了我们的Restormer在16个基准数据集上进行了多个图像恢复任务的最新性能，包括图像去雨、单图像运动去模糊、焦点去模糊等。0（在单图像和双像素数据上）和图像去噪（在合成和真实数据上）；见图1。此外，我们进行了广泛的实验验证，展示了架构设计和实验选择的有效性。本文的主要贡献总结如下：•我们提出了Restormer，一种编码器-解码器Transformer，用于在高分辨率图像上进行多尺度局部-全局表示学习，而无需将其分解为局部窗口，从而利用远程图像上下文。0•我们提出了一种多Dconv头部转置注意力（MDTA）模块，能够聚合局部和非局部像素交互，并且足够高效以处理高分辨率图像。0•一种新的门控Dconv前馈网络（GDFN），执行受控特征转换，即抑制信息较少的特征，只允许有用的信息通过网络层次结构进一步传递。02. 背景0图像恢复。近年来，数据驱动的CNN架构[7, 18, 92, 93,105, 107]已被证明优于传统的恢复方法[26, 36, 53,75]。在卷积设计中，基于编码器-解码器的U-Net架构[3,14, 39, 80, 90, 93,99]由于其分层多尺度表示且计算效率高而成为恢复领域的主要研究对象。类似地，基于跳跃连接的方法由于专注于学习残差信号而被证明对恢复任务有效[24, 48, 92,106]。空间和通道注意力模块也被用于有选择地关注相关信息[43, 92, 93]。我们参考NTIRE挑战报告[2, 5, 30,57]和最近的文献综述[8, 42,73]，总结了图像恢复的主要设计选择。视觉Transformer。Transformer模型最初用于自然语言任务的序列处理[77]。它已被应用于许多视觉任务，如图像识别[17, 76,88]、分割[78, 83, 108]、目标检测[11, 50,109]。视觉Transformer[17,76]将图像分解为一系列补丁（局部窗口），并学习它们之间的相互关系。这些模型的显著特点是强大的学习图像补丁序列之间的长程依赖关系和对给定输入内容的适应能力[34]。由于这些特点，Transformer模型也被用于超分辨率[44,85]、图像上色[37]、去噪[13,80]和去雨[80]等低级视觉问题的研究。然而，Transformer中的自注意力计算复杂度随着图像补丁数量的增加呈二次增长，因此无法应用于高分辨率图像。因此，在低级图像处理应用中，高分辨率图像are gradually increased from the top to bottom levels tomaintain efficiency. Starting from the high-resolution input,the encoder hierarchically reduces spatial size, while ex-573003x30R0Softmax0Transformer块0归一化01x1x1x0o0x10通道数c1x101x1通道数c0GDFN0MDTA03x30Dconv 3x30Dconv3x3归一化01x10Dconv 3x30Dconv 3x30R0R R0Dconv3x30R0下采样0上采样0逐元素相加0连接0重塑0GELU激活0深度卷积0矩阵乘法0逐元素相乘0MDTA 多深度卷积头转置注意力0GDFN 门控深度卷积前馈网络0跳跃连接0高宽通道数C 高宽通道数30细化高宽通道数C0高宽 4 4 xx4C0转置注意力图 ( )0高宽 8 8 xx8C0高宽 4 4 xx4C0高宽 4 4 xx4C0高宽 8 8 xx8C0高宽 2 2 xx2C0高宽 2 2 xx2C0高宽 2 2 xx2C0xWxC0降质图像（）0恢复图像（）0Transformer块0Transformer块0Transformer块0Transformer块0Transformer0Transformer块 HxWx2C0L x r01x101x10L x 1 L x 10L x 20L x 30L x 40L x 30(a)0(b)0图2.Restormer用于高分辨率图像恢复的架构。我们的Restormer采用多尺度分层设计，结合高效的Transformer块。Transformer块的核心模块包括：(a) 多维卷积头转置注意力（MDTA），在通道上而不是空间维度上执行（空间丰富的）查询-键特征交互；(b)门控卷积前馈网络（GDFN），执行受控特征转换，即允许有用信息进一步传播。0需要生成输出，最近的方法通常采用不同的策略来降低复杂性。一种潜在的解决方法是在局部图像区域内应用自注意力[44, 80]，使用SwinTransformer设计[44]。然而，这种设计选择限制了上下文聚合在局部邻域内，违背了使用自注意力而不是卷积的主要动机，因此不太适合图像恢复任务。相反，我们提出了一个Transformer模型，可以在保持计算效率的同时学习长程依赖关系。03. 方法0我们的主要目标是开发一种能够处理高分辨率图像的高效Transformer模型，用于恢复任务。为了缓解计算瓶颈，我们在多头自注意力层和多尺度分层模块中引入了关键设计，其计算要求比单尺度网络低[44]。我们首先介绍我们的Restormer架构的整体流程（见图2）。然后我们描述了所提出的Transformer块的核心组件：(a)多维卷积头转置注意力（MDTA）和(b)门控卷积前馈网络（GDFN）。最后，我们提供了有效学习图像统计信息的渐进训练方案的详细说明。0整体流程。给定一个降质图像 I ∈ R H × W ×3，Restormer首先应用卷积操作得到低级特征嵌入 F 0 ∈R H × W × C；其中 H × W 表示空间维度，C是通道数。接下来，这些浅层特征 F 0经过4级对称编码器-解码器转换为深层特征 F d ∈ R H ×W ×2C。每个编码器-解码器级别包含多个Transformer块，其中块的数量为0以8×8C作为输入，并逐步恢复高分辨率表示。对于特征下采样和上采样，我们分别应用像素解混和像素重排操作[69]。为了辅助恢复过程，编码器特征通过跳跃连接[66]与解码器特征进行级联。级联操作后，对所有级别（除顶层外）进行1×1卷积以减少通道数（减半）。在级别1，我们让Transformer块将编码器的低级图像特征与解码器的高级特征聚合在一起。这有利于保留恢复图像中的细微结构和纹理细节。接下来，在高空间分辨率上进行的细化阶段进一步丰富了深层特征 Fd。这些设计选择在实验部分（第4节）中产生了质量改进。最后，应用卷积层对精化特征进行处理，生成残差图像 R ∈R H × W × 3，将其与降质图像相加以获得恢复图像：ˆ I =I + R。接下来，我们介绍Transformer块的模块。03.1. 多Dconv头部转置注意力0Transformer中的自注意力层是主要的计算开销。在传统的SA[17,77]中，键-查询点积交互的时间和内存复杂度随输入的空间分辨率呈二次增长，即对于W×H像素的图像，时间和内存复杂度为O(W^2H^2)。因此，在通常涉及高分辨率图像的大多数图像恢复任务中，应用SA是不可行的。(1)(2)57310为了缓解Transformer中的计算开销问题，我们提出了MDTA，如图2(a)所示，其具有线性复杂度。关键是在通道上应用SA，而不是空间维度，即计算通道之间的交叉协方差以生成隐含全局上下文的注意力图。作为MDTA中的另一个重要组成部分，我们引入了深度卷积，在计算特征协方差之前强调局部上下文，以生成全局注意力图。从一个层归一化的张量Y ∈RˆH×ˆW×ˆC开始，我们的MDTA首先生成带有局部上下文的查询（Q）、键（K）和值（V）投影。这是通过对聚合像素级跨通道上下文应用1×1卷积，然后对编码通道级空间上下文应用3×3深度卷积来实现的，得到Q = W Q d W Q pY，K = W K d W K p Y和V = W V d W V p Y。其中0W(∙)p是1×1逐点卷积，W(∙)d是3×3深度卷积。我们在网络中使用无偏置的卷积层。接下来，我们对查询和键的投影进行重塑，使它们的点积交互生成一个大小为RˆC×ˆC的转置注意力图A，而不是大小为RˆHˆW×ˆHˆW的巨大的常规注意力图[17, 77]。总体而言，MDTA过程定义为：0ˆ X = W p Attention � ˆ Q, ˆ K, ˆ V �0Attention � ˆ Q, ˆ K, ˆ V � = ˆ V ∙ Softmax � ˆ K ∙ ˆQ /α �，0其中 X 和 ˆ X 是输入和输出特征图；ˆ Q ∈ RˆHˆW×ˆC；ˆK ∈ RˆC×ˆHˆW；ˆ V ∈RˆHˆW×ˆC矩阵是从原始大小为RˆH×ˆW×ˆC的张量重塑得到的。这里，α是一个可学习的缩放参数，用于在应用softmax函数之前控制ˆ K 和 ˆ Q的点积的大小。与传统的多头SA[17]类似，我们将通道数分成“头”，并并行学习独立的注意力图。03.2. 门控多Dconv前馈网络0为了转换特征，常规前馈网络（FN）[17,77]分别对每个像素位置进行操作。它使用两个1×1卷积，一个用于扩展特征通道（通常乘以因子γ=4），另一个用于将通道减少到原始输入维度。在隐藏层应用非线性函数。在这项工作中，我们对FN进行了两个基本修改以改进表示学习：（1）门控机制，和（2）深度卷积。我们的GDFN的架构如图2(b)所示。门控机制被公式化为两个线性变换层的逐元素乘积，其中一个使用GELU非线性函数进行激活[27]。与MDTA一样，我们在GDFN中还包括深度卷积来编码信息。0对于空间相邻的像素位置，GDFN利用了局部图像结构的学习。给定输入张量X ∈ RˆH×ˆW×ˆC，GDFN的公式为：0ˆ X = W0 p Gating(X) + X，0Gating(X) = ϕ(W1dW1p(LN(X))) ⊙ W2dW2p(LN(X))，0其中 ⊙ 表示逐元素相乘，ϕ表示GELU非线性函数，LN是层归一化[9]。总体而言，GDFN控制着我们管道中各个分层级别的信息流动，从而使每个级别能够专注于与其他级别互补的细节。也就是说，与侧重于用上下文信息丰富特征的MDTA相比，GDFN提供了不同的作用。由于所提出的GDFN与常规FN相比执行的操作更多[17]，我们减小了扩展比例γ，以便具有类似的参数和计算负担。03.3. 渐进学习0基于CNN的恢复模型通常在固定大小的图像块上进行训练。然而，将Transformer模型训练在小的裁剪图像块上可能无法编码全局图像统计信息，从而在测试时对全分辨率图像提供次优的性能。为此，我们进行渐进式学习，网络在早期时期在较小的图像块上进行训练，并在后期训练时逐渐增加图像块的大小。通过渐进学习在测试时对不同分辨率的图像（在图像恢复中常见的情况）表现出增强的性能。渐进学习策略的行为方式类似于课程学习过程，网络从简单任务开始逐渐转向学习更复杂的任务（需要保留精细图像结构/纹理）。由于在大块上的训练需要更长的时间，随着块大小的增加，我们减小批量大小，以保持与固定块训练相似的每次优化步骤的时间。04. 实验和分析0我们在基准数据集和实验设置上评估了提出的Restormer，用于四个图像处理任务：(a)图像去雨，(b)单图像运动去模糊，(c)焦点去模糊(对单图像和双像素数据)，以及(d)图像去噪声(对合成和真实数据)。有关数据集、训练协议和其他视觉结果的详细信息请参见补充材料。在表格中，突出显示并强调了评估方法的最佳和次佳质量得分。实现细节。我们为不同的图像恢复任务训练单独的模型。在所有实验中，除非另有说明，我们使用以下训练参数。我们的Restormer采用4级编码器-解码器。57320表1. 图像去雨结果。在所有五个数据集上平均，我们的Restormer将最先进的性能提升了1.05 dB。0Test100 [97] Rain100H [86] Rain100L [86] Test2800 [22] Test1200 [96] 平均方法 PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑ PSNR ↑SSIM ↑0DerainNet [21] 22.77 0.810 14.92 0.592 27.03 0.884 24.31 0.861 23.38 0.835 22.48 0.796 SEMI [81] 22.35 0.788 16.56 0.486 25.03 0.842 24.43 0.782 26.05 0.82222.88 0.744 DIDMDN [96] 22.56 0.818 17.35 0.524 25.23 0.741 28.13 0.867 29.65 0.901 24.58 0.770 UMRL [87] 24.41 0.829 26.01 0.832 29.18 0.923 29.97 0.90530.55 0.910 28.02 0.880 RESCAN [43] 25.00 0.835 26.36 0.786 29.80 0.881 31.29 0.904 30.51 0.882 28.59 0.857 PreNet [64] 24.81 0.851 26.77 0.858 32.44 0.95031.75 0.916 31.36 0.911 29.42 0.897 MSPFN [32] 27.50 0.876 28.66 0.860 32.40 0.933 32.82 0.930 32.39 0.916 30.75 0.903 MPRNet [93] 30.27 0.897 30.41 0.89036.40 0.965 33.64 0.938 32.91 0.916 32.73 0.921 SPAIR [61] 30.35 0.909 30.95 0.892 36.93 0.969 33.34 0.936 33.04 0.922 32.91 0.9260Restormer 32.00 0.923 31.46 0.904 38.99 0.978 34.18 0.944 33.19 0.926 33.96 0.9350PSNR 18.76 dB 20.23 dB 23.66 dB 25.52 dB 参考雨天 DerainNet [21] SEMI [81]UMRL [87]018.76 dB 26.88 dB 27.16 dB 29.86 dB 32.15 dB 33.97 dB 雨天图像 RESCAN [43] PreNet [64] MSPFN [32] MPRNet[93] Restormer0图3. 图像去雨示例。我们的Restormer生成无雨的图像，具有结构保真度且没有伪影。0表2.单图像运动去模糊结果。我们的Restormer仅在GoPro数据集[56]上进行训练，并直接应用于HIDE[67]和RealBlur[65]基准数据集。0GoPro [56] HIDE [67] RealBlur-R [65] RealBlur-J [65] 方法 PSNR SSIM PSNR SSIMPSNR SSIM PSNR SSIM0Xu等人 [84] 21.00 0.741 - 34.46 0.937 27.14 0.8300DeblurGAN [38] 28.70 0.858 24.51 0.871 33.79 0.903 27.97 0.8340Nah等人 [56] 29.08 0.914 25.73 0.874 32.51 0.841 27.87 0.8270Zhang等人 [98] 29.19 0.931 - 35.48 0.947 27.80 0.8470DeblurGAN-v2 [39] 29.55 0.934 26.61 0.875 35.26 0.944 28.70 0.8660SRN [72] 30.26 0.934 28.36 0.915 35.66 0.947 28.56 0.8670Shen等人 [67] - 28.89 0.930 - - Gao等人 [23] 30.90 0.935 29.11 0.913 - - DBGAN[100] 31.10 0.942 28.94 0.915 33.78 0.909 24.93 0.7450MT-RNN [58] 31.15 0.945 29.15 0.918 35.79 0.951 28.44 0.8620DMPHN [94] 31.20 0.940 29.09 0.924 35.70 0.948 28.42 0.8600Suin等人 [71] 31.85 0.948 29.98 0.930 - - SPAIR [61] 32.06 0.953 30.29 0.931 -28.81 0.8750MIMO-UNet+ [14] 32.45 0.957 29.99 0.930 35.54 0.947 27.63 0.8370IPT [13] 32.52 - - - - MPRNet [93] 32.66 0.959 30.96 0.939 35.99 0.952 28.70 0.8730Restormer 32.92 0.961 31.22 0.942 36.19 0.957 28.96 0.8790从level-1到level-4，Transformer块的数量分别为[4，6，6，8]，MDTA中的注意力头数为[1，2，4，8]，通道数为[48，96，192，384]。细化阶段包含4个块。GDFN中的通道扩展因子为γ=2.66。我们使用AdamW优化器（β1=0.9，β2=0.999，权重衰减1e-4）和L1损失进行300K次迭代的训练，初始学习率为3e-4，逐渐降低到1e-6，采用余弦退火[51]。对于渐进学习，我们从补丁大小128×128开始训练。0批大小为64。补丁大小和批大小的配对在[92K，156K，204K，240K，276K]迭代时更新为[(160^2，40)，(192^2，32)，(256^2，16)，(320^2，8)，(384^2，8)]。对于数据增强，我们使用水平和垂直翻转。04.1. 图像去雨结果0我们使用YCbCr颜色空间中的Y通道计算PSNR/SSIM分数，类似于现有的方法[32, 61,93]。表1显示，我们的Restormer在所有五个数据集上都实现了一致且显著的性能提升。与最新的最佳方法SPAIR[61]相比，Restormer在所有数据集上平均提高了1.05dB。在单个数据集上，增益可以高达2.06dB，例如Rain100L。图3显示了一个具有挑战性的视觉示例。我们的Restormer生成了一张无雨滴的图像，同时有效地保留了结构内容。04.2. 单图像运动去模糊结果0我们在合成数据集（GoPro [56]，HIDE[67]）和真实数据集（RealBlur-R [65]，RealBlur-J[65]）上评估去模糊方法。表2显示，我们的Restormer在所有四个基准数据集上都优于其他方法。在所有数据集上平均，我们的方法相比最新的算法MIMO-UNet+[14]提高了0.47 dB，并且相比之前最好的方法MPRNet[93]提高了0.26 dB。与MPR-Net[93]相比，Restormer的FLOPs减少了81%（见图1）。]57330PSNR 19.45 dB 23.85 dB 23.56 dB 23.86 dB 参考模糊 Gao等人 [23] DBGAN [100]MTRNN [58]019.45 dB 24.85 dB 25.20 dB 25.67 dB 24.33 dB 26.96 dB 模糊图像 DMPHN [94] Suin等人 [71] MPRNet [93]MIMO-UNet+ [14] Restormer0图4. GoPro [56]上的单图像运动去模糊。Restormer生成更清晰、更真实的结果。0表3.DPDD测试集上的散焦去模糊比较[3]（包含37个室内场景和39个室外场景）。S：单图像散焦去模糊。D：双像素散焦去模糊。Restormer在单图像和双像素散焦去模糊方面都达到了最新的技术水平。0室内场景室外场景综合0方法 PSNR ↑ SSIM ↑ MAE ↓ LPIPS ↓ PSNR ↑ SSIM ↑ MAE ↓ LPIPS ↓ PSNR ↑ SSIM ↑ MAE ↓ LPIPS ↓0EBDB S [33] 25.77 0.772 0.040 0.297 21.25 0.599 0.058 0.373 23.45 0.683 0.049 0.336 DMENet S [40] 25.50 0.788 0.038 0.298 21.43 0.644 0.063 0.397 23.41 0.7140.051 0.349 JNB S [68] 26.73 0.828 0.031 0.273 21.10 0.608 0.064 0.355 23.84 0.715 0.048 0.315 DPDNet S [3] 26.54 0.816 0.031 0.239 22.25 0.682 0.056 0.313 24.340.747 0.044 0.277 KPAC S [70] 27.97 0.852 0.026 0.182 22.62 0.701 0.053 0.269 25.22 0.774 0.040 0.227 IFAN S [41] 28.11 0.861 0.026 0.179 22.76 0.720 0.052 0.25425.37 0.789 0.039 0.2170Restormer S 28.87 0.882 0.025 0.145 23.24 0.743 0.050 0.209 25.98 0.811 0.038 0.1780DPDNet D [3] 27.48 0.849 0.029 0.189 22.90 0.726 0.052 0.255 25.13 0.786 0.041 0.223 RDPD D [4] 28.10 0.843 0.027 0.210 22.82 0.704 0.053 0.298 25.39 0.7720.040 0.255 Uformer D [80] 28.23 0.860 0.026 0.199 23.10 0.728 0.051 0.285 25.65 0.795 0.039 0.243 IFAN D [41] 28.66 0.868 0.025 0.172 23.46 0.743 0.049 0.24025.99 0.804 0.037 0.2070Restormer D 29.48 0.895 0.023 0.134 23.97 0.773 0.047 0.175 26.66 0.833 0.035 0.1550PSNR 27.19 dB 27.44 dB 28.67 dB 参考模糊 DMENet [40] DPDNet [3]027.19 dB 29.01 dB 28.35 dB 29.12 dB 30.45 dB 模糊图像 RDPD [4] IFAN [41] Uformer [80] Restormer0图5. DPDD [3]上的双像素散焦去模糊。Restormer有效地去除模糊同时保留了细节。0此外，我们的方法相比Transformer模型IPT[13]提高了0.4dB，同时参数减少了4.4倍，运行速度提高了29倍。值得注意的是，我们的Restormer仅在GoPro[56]数据集上进行训练，但它在其他数据集上展现出了很强的泛化能力，创造了新的最先进水平。图4显示，我们的方法生成的图像比其他算法更清晰，更接近真实图像。04.3. 散焦去模糊结果0表3显示了传统的散焦去模糊方法（EBDB [33]和JNB[68]）以及基于学习的方法在DPDD数据集[3]上的图像保真度得分。我们的Restormer在单图像和双像素散焦去模糊方面明显优于现有技术方案。0在所有场景类别上进行模糊任务。特别是在综合场景类别上，Restormer相比之前最好的方法IFAN[41]提高了约0.6dB。与Transformer模型Uformer[80]相比，我们的方法提供了1.01dB的显著增益。图5说明我们的方法在去除空间变化的散焦模糊方面比其他方法更有效。04.4. 图像去噪结果0我们在合成基准数据集（Set12 [101]，BSD68[52]，Urban100 [29]，Kodak24 [20]和McMaster[104]）以及真实世界数据集（SIDD [1]和DND[60]）上进行去噪实验。按照[54，93，99]的方法，我们使用无偏差的Restormer进行去噪。Restormer33.35 31.04 28.01 31.95 29.51 26.62 33.67 31.39 28.33FOCNet [31]33.07 30.73 27.68 31.83 29.38 26.50 33.15 30.64 27.40MWCNN [47] 33.15 30.79 27.74 31.86 29.41 26.53 33.17 30.66 27.42NLRN [46]33.16 30.80 27.64 31.88 29.41 26.47 33.45 30.94 27.49RNAN [106]--27.70--26.48--27.65DeamNet [63] 33.19 30.81 27.74 31.91 29.44 26.54 33.37 30.85 27.53DAGL [55]33.28 30.93 27.81 31.93 29.46 26.51 33.79 31.39 27.97SwinIR [44]33.36 31.01 27.91 31.97 29.50 26.58 33.70 31.30 27.98Restormer33.42 31.08 28.00 31.96 29.52 26.62 33.79 31.46 28.29CBSD68 [52]Kodak24 [20]McMaster [104]Urban100 [29]IRCNN [102] 33.86 31.16 27.86 34.69 32.18 28.93 34.58 32.18 28.91 33.78 31.20 27.70FFDNet [103] 33.87 31.21 27.96 34.63 32.13 28.98 34.66 32.35 29.18 33.83 31.40 28.05DnCNN [101] 33.90 31.24 27.95 34.60 32.14 28.95 33.45 31.52 28.62 32.98 30.81 27.59DSNet [59]33.91 31.28 28.05 34.63 32.16 29.05 34.67 32.40 29.28---DRUNet [99] 34.30 31.69 28.51 35.31 32.89 29.86 35.40 33.14 30.08 34.81 32.60 29.61Restormer34.

下载后可阅读完整内容，剩余1页未读，立即下载