基于残差特征聚合网络的图像超分辨率

6 浏览量更新于2023-10-25 收藏 832KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2359RBRBRBRBConv基于残差特征聚合网络的图像超分辨率刘文杰张玉婷唐杰唐杰吴刚山南京大学软件新技术国家重点实验室{jieliu，zwj，MF1833070}@ smail.nju.edu.cn，{tangjie，gswu}@nju.edu.cn摘要最近，非常深的卷积神经网络（CNN）在单图像超分辨率（SISR）方面表现出了强大的能力，并且相对于传统方法取得了显着的改进。在这些基于CNN的方法中，剩余连接在提高网络性能方面起着关键作用。随着网络深度的增加，残差特征逐渐集中在输入图像的不同方面，这对重构图像的空间细节非常有用。然而，现有的方法必须充分利用剩余分支上的层次特征。为了解决这个问题，我们提出了一种新的残余特征聚合（RFA）框架，更有效的特征提取。RFA框架将多个残差模块组合在一起，并通过添加跳过连接来直接转发每个局部残差分支上的特征。因此，RFA框架能够聚集这些信息残留特征，以产生更具代表性的特征。为了最大限度地提高RFA框架的能力，我们进一步提出了增强的空间注意力（ESA）块，使残差特征更集中于关键的空间内容。ESA块被设计成轻量且高效的。我们最终的RFANet构造通过应用建议的RFA框架与ESA块。全面的实验表明，我们的RFA框架的必要性和我们的RFANet的优越性超过国家的最先进的SISR方法。1. 介绍单图像超分辨率（SISR）的任务是将退化的低分辨率（LR）图像映射到视觉高分辨率（HR）图像，这是一个高度不适定的问题，因为多个HR解可以映射到一个LR输入。已经提出了许多图像SR方法来解决这个逆问题，包括早期基于插值的方法[37]、基于重建的方法[34]和最近基于学习的方法[27，28，22，4，12，13，36，3]。*通讯作者。(a) 剩余模链(b) 残余特征聚合（RFA）图1.（a）剩余模块链剩余模块由一个剩余块（RB）和一个身份连接组成.(b)残余特征聚合（RFA）框架。最近基于深度卷积神经网络的方法在重建HR图像方面取得了很大进展。第一次成功的尝试是由Dong等人完成的。[4]，他为SISR提出了三层SRCNN，并实现了优于传统方法的性能。Kim等人通过引入残差学习来减轻训练难度，进一步将VDSR [13]和DRCN [14]中的深度增加到20。在这些开创性的工作之后，已经提出了许多基于CNN的方法，并在SISR中取得了最先进的结果[15，18，40，38，3、17、7、9、39]。虽然SISR已经取得了相当大的改进，现有的基于CNN的模型仍然面临着一些限制。随着网络深度的增长，每个卷积层中的特征将是具有不同感受野的拓扑结构。大多数现有的基于CNN的模型没有充分利用来自中间层的信息。特别是残差学习被广泛应用于基于CNN的模型中，以提取输入特征的残差信息，而几乎所有现有的SR模型都只是将残差学习作为一种策略来减轻训练难度。为了清楚起见，我们将整个残差构造称为残差模块，将残差分支称为残差块。通常，SR模型是通过堆叠一堆残余模块来制作的，其中残余特征在传播到下一个模块之前与身份特征融合（图11）。1（a））。作为RBRBRBRB2360×××result, later residual blocks can only see the complex fusedfeatures.这些方法忽略了充分利用更清洁的残留特征，从而导致性能下降。然而，残余特征对于重建HR图像是非常有帮助的。为了解决这些问题，我们提出了一个残余特征聚合（RFA）框架，它聚合了更强大的特征表示的本地残余特征。图1（a）示出了一种常见的网络设计，其中多个剩余模块堆叠在一起以构建深度网络。在这种设计下，前面块的残留特征必须经过一个长的路径才能传播到后面的块。经过一系列的加法和卷积运算后，这些特征与身份特征快速融合，形成更复杂的特征。因此，这些高度代表性的残差特征被非常局部地使用，这限制了网络的代表能力。如图所示1（b）中，提出的RFA框架重新组织了堆叠的剩余模块，其中最后一个剩余模块被扩展以覆盖前三个剩余模块，以减轻训练难度。然后，前三个块的残差特征被直接发送到最后一个残差块的输出。最后，这些分层特征被连接在一起并被发送到11卷积层以生成更有代表性的特征。唯一的开销是每四个残差块进行11卷积，这与整个非常深的网络相比是可以忽略的。如图8、不同残差块的残差特征可以反映空间内容的不同方面。但这些残留特征没有得到足够的强调。为了进一步提高RFA框架的性能，有必要利用空间注意机制增强剩余特征的空间分布。然而，图像SR中现有的空间注意机制要么不太强大，要么计算密集。例如，[10]中的普通空间注意缺乏对图像SR至关重要的大的感受野，[19，3]中的非局部机制消耗了大量的计算资源。为了解决这个问题，我们提出了一个轻量级和高效的增强空间注意力（ESA）块。ESA块通过联合使用步幅卷积和具有大窗口大小的最大池化来实现大的感受野为了保持ESA块的主体足够轻量，我们在ESA块的开始处应用11卷积以用于通道维度减少。为了验证所提出的方法的有效性，我们通过将RFA框架与 ESA 块相结合来构建一个非常深的网络RFANet。与RCAN [38]（16M）和SAN [3]（15.7M）相比，RFANet通过使用更少的参数（11M）实现了相当或更优的结果。总之，本文的主要贡献如下所示我们提出了一个通用的残余特征聚合（RFA）框架，更准确的图像SR。综合消融研究表明，残余网络和稠密网络的性能都得到了实质性的改善。我们提出了一个增强的空间注意力（ESA）块，根据空间上下文自适应地重新缩放功能。ESA模块允许网络学习更多的区分特征。此外，它是轻量级的，并具有更好的性能比普通的空间atten-tion块。我们提出了一个残余特征聚合网络（RFANet），它是通过将建议的RFA框架与强大的ESA块。由于增强的空间注意机制，RFA框架可以聚合更多的代表性特征，从而生成更准确的SR结果。2. 相关工作超分辨率可以大致分为两大类：传统和基于深度学习的方法。由于其强大的学习能力，经典方法已经被基于深度学习的方法所超越在本节中，我们简要回顾了与用于单图像超分辨率的深度神经网络相关的工作2.1. CNN网络Dong等人[4]首次提出了一种用于图像SR的浅层三层卷积神经网络（SRCNN），并取得了优于以前作品的性能。受这一开创性工作的启发，Kimet al.设计了更深层次的VDSR [13]和DRCN [14]，具有基于残差学习的20层。后来，Tai等人在DRRN [24]中引入了递归块，在MemNet [25]中引入了内存块。这些方法从插值的LR图像中提取特征，这消耗了大量的内存和计算时间。为了解决这个问题，Shiet al.在ESPCN [23]中提出了一个有效的子像素卷积层，其中LR特征图在网络末端被放大为HR输出由于有效的子像素层，已经提出了许多非常深Lim等人提出了一种非常深和宽的网络EDSR [18]，通过堆叠修改后的残留块，其中去除了批量归一化（ BN ）层。 Ledig 等人在 [16] 中引入了SRResNet，并通过引入密集连接在[31]中进一步改进。Zhang等人也使用了RDN [40]中的密集连接来利用所有卷积层的所有分层特征。···2361BGRRH图2. SR网络的基本架构。红色虚线矩形表示网络的主干部分，由T个基本模块（BM）组成。2.2. 注意力网络注意力机制广泛应用于最近的计算机视觉任务，如图像字幕[32，2]，图像和视频分类[8，30]。它可以被解释为将可用资源的分配偏向输入信号中信息量最大的部分的一种方式[8]。Wang等人[29]提出了一个强大的主干和掩码注意机制，插入深度残留网络的中间阶段。Hu等人[8]提出了挤压和激励网络（SENet）来利用通道关系，并实现了图像分类的显着改进最近，一些基于注意力的模型也被提出来进一步提高SR性能。Zhang等人[38]提出了残差通道注意网络（RCAN），将通道注意机制引入到图像SR的修正残差块中。信道注意机制使用全局平均池化来提取信道统计，其被称为一阶统计。相反，Daiet al.[3]提出了二阶注意力网络（SAN），利用二阶特征统计来探索更强大的特征表达。RCAN和SAN是目前公开的所有方法中PSNR性能最好的两种方法。T个基本模块（BM），其可以被公式化为F t= Bt（F t−1）= Bt（Bt−1（. - 是的- 是的（B0（F0））。- 是的- 是的））②其中t表示第t个基模块函数。 F t−1是第t个模块的输入，F t是相应的输出。最后，通过重构部分对提取的深度特征Ft进行尺度放大ISR=R（Ft+F0）=G（ILR）（3）其中ISR是超分辨率图像，表示重构函数，并且表示SR网络的函数在这里，全局残差学习用于减轻训练难度，因此输入是Ft和F0的逐元素加法。重建部分的关键模块是放大模块，其中应用了适当数量的子像素[23利用L1损失函数对SR网络进行优化给定N个LR图像块ILR和它们的HR对应物IHR的训练集，具有参数集θ的基本网络的损失函数为1ΣN我我3. 方法L（Θ）=Ni=1||1（4）||1(4)3.1. 图像SR的基本网络架构许多最近的SR网络具有类似的网络架构。在这里，我们介绍一些最先进的方法[18，40，38，3]所使用的基本架构之一。如图2、一个基本的图像SR网络通常由三部分组成：头部、躯干部和重建部。头部负责仅使用一个卷积层进行初始给定LR输入ILR，我们可以通过该层获得浅特征F0F0=H（ILR）（1）哪里表示头部的浅特征提取功能。然后将提取的特征F0发送到躯干部分进行深度特征学习。躯干部分是由3.2. 剩余特征聚合框架残差学习在图像分类问题中的重要性已经得到证明。最近，残差学习也被引入到图像SR中，以进一步提高性能。图3（左）描述了EDSR [18]和ESRGAN [31]中使用的基本残差模块。剩余的模块通常堆叠在一起，形成SR网络的主干部分（图1）。2）。每个残差模块由两个分支组成：残差分支（即，剩余块）和身份分支。在图像重建任务中，残差块可以产生一些有用的分层特征，集中在原始LR图像的不同方面。考虑几个连续的残差模块的情况（例如，图1（a）），第一个残差块的特征必须经过一个长的路径，通过重复的BM 0BM 1BM TConvConvConv高档2362×××××××图3.左：一个基本的残差模块。右：RFA模块的详细信息，其中包含4个残差块（RB）和1×1卷积层。加法和卷积运算。As a result, the resid- ual feature ishard to be fully utilized and plays a very local role in thelearning process of the entire network.为了解决这个问题，我们提出了一个残余特征聚合（RFA）框架，以更好地利用局部残余特征。图图3（右）示出了包含四个残差块的RFA模块的细节正如我们所看到的，前三个块的残差特征被直接发送最后11卷积被应用于在与身份特征的逐元素加法之前融合这些特征。与简单地堆叠多个剩余模块的方式相比，我们的RFA框架使得能够非局部地使用剩余特征。前面的残差块包含的有用的分层信息可以被传播到RFA模块的末端，而没有任何损失或干扰，从而导致更具鉴别力的特征表示。所提出的残差特征聚合方法是一个通用框架，可以很容易地应用于现有的SR块（例如，致密块[40]）。当我们的RFA框架与最先进的模块结合使用时，我们将详细研究其效果。3.3. 增强的空间注意阻滞图4. 左侧：增强空间注意力（ESA）。右：欧空局机制的细节。为了最大限度地提高RFA框架的有效性，最好与空间注意力机制结合使用，因为我们需要将剩余特征集中在关键重要性的空间内容上。为此，我们设计了一个增强的空间注意力（ESA）块，它比[10]中的普通块更强大。ESA机制在剩余块的末端起作用（图1）。4（左）），以迫使特征更集中于感兴趣区域。我们可以得到一个更有代表性的功能时，聚集这些突出的特点在一起。设计中注意力障碍的几个要素必须仔细考虑。首先，注意力块必须足够轻量级，因为它将被插入到网络的每个剩余模块中。第二，需要一个大的感受野的注意块工作良好的图像SR的任务。如图4（右），所提出的ESA机制以11卷积层开始以减小信道维度，使得整个块可以非常轻量。然后，为了扩大感受野，我们使用一个步幅卷积（步幅为2），然后是最大池化层。步幅卷积和最大池化的组合被广泛用于图像分类，以在网络开始时快速降低空间维度。然而，由常规的2 2最大池化层带来的感受野扩大仍然非常有限。所以我们选择用一个更大的窗口来应用最大池化操作（例如，7 7）和步幅（例如，步幅3）。对应于前面，增加上采样层以恢复空间维度，并且使用11卷积层来恢复信道维度。最后，通过sigmoid层生成注意力掩码。我们还使用跳过连接来将空间维度减少之前的高分辨率特征直接转发到块的末尾。撇开计算量不谈，实现空间注意力块的一种可能更好的方法是使用非局部块。实际上，有一些作品[19，3]试图使用非局部块来对图像SR中的像素相似性进行建模。虽然它带来了性能的提高，但巨大的计算开销是不可接受的，这违反了我们的设计原则的第一个要素。3.4. 实现细节我们应用RFA框架与ESA块来构建我们最终的SR网络（RFANet）。RFANet使用30个RFA模块，每个RFA模块包含4个ESA模块。在ESA块中，1 1卷积层的缩减比被设置为4，并且我们在卷积组中使用三个3 3卷积。对于ESA块之外的其他卷积滤波器，滤波器的数量被设置为64。RBRBRBRBConvRFA t+1ConvReLUConv转换ReLUConv欧空Conv 1x1跨步转换池化RFA t-1Conv组上采样Conv 1x1乙状2363×××××3.5. 讨论与MemNet的区别MemNet是由Tai等人提出的非常深的持久记忆网络。[25 ]第20段。MemNet最关键的部分是堆叠的内存块。记忆块由递归单元和门单元组成，通过自适应学习过程显式地递归单元由残差构建块实现，并且在每个递归中执行该残差构建块以生成多级表示。门单元负责自适应地学习这些表示。展开的内存块与我们的RFA框架具有类似的连接模式。关键的区别在于，内存块聚合了整个残差模块的输出特征，而我们的RFA框架集中在残差分支的特征上。此外，存储器块以递归方式非常局部地操作在RFA框架中，基本的构造块以链式的方式组织，使得每个残差分支可以关注LR图像的不同方面，因此聚集的残差特征将更加多样和区分。与RDN的区别RDN [40]的主要构建块称为剩余密集块（RDB）。RDB结合了残留-使用密集连接的双跳连接。关系数据库的动机是充分利用层次特征表示来学习局部模式。在密集块中在与身份分支合并之前，还使用11卷积层来融合来自所有中间层的特征虽然在块设计后有类似的动机一个RFA模块包含几个残差模块，主要是聚合来自残差分支的特征。相比之下，RDB收集普通卷积层之间的密集块是非常密集的计算，因为密集的特征融合策略。我们的RFA模块更加轻量级，因为功能聚合只发生在模块的末尾一般来说，所提出的RFA模块工作在比密集块更高的级别，并且当将我们的RFA框架应用于密集块时，性能可以进一步提升（表1）。4. 实验4.1. 设置根据以前的工作[40，38，3]，我们使用来自DIV2K[26]数据集的800个高分辨率训练图像作为训练集。在训练过程中，通过随机旋转90°、180°、270°和水平翻转进行数据扩充.在每个训练小批量中，使用16个尺寸为48 - 48的LR色标。为了测试，我们使用五个标准基准数据集：Set5 [1]，Set14 [33]，[20]，Urban100 [12]，and Manga109 [21].进行实验时使用双三次（BI）和模糊降尺度（BD）降解模型[36]SR结果通过变换后的YCbCr空间的Y通道上的PSNR和SSIM度量来评估。我们的模型由ADAM优化器训练，β1=0。9，β2=0。99，且π=10−8。学习率初始化为5 10−4，然后每2 105次迭代减少一半我们使用PyTorch框架来实现我们的模型与Titan Xp GPU。4.2. 与残留块在本节中，我们研究了我们的RFA框架与EDSR [18]中使用的基本残差块的组合。与传统的残差块分类方法不同， EDSR 算法去除了图像中的 BatchNormalization层，取得了实质性的改进。基线模型包含120个残差模块，我们将此模型称为我们的RFA模型采用30个RFA模块，以保持与EDSR-Baseline相同的残留块数量，以便进行公平的比较。我们将该模型简称为“RFA-EDSR”。如表1的第二列所示，EDSR-基线的PSNR为32.40 dB，这表明图像SR的强基线。当部署我们的RFA框架与残余块（RFA-EDSR），PSNR达到32.50dB。与EDSR基线相比，RFA-EDSR每四个残差块仅具有一个以上的11卷积，而将PSNR提高0.1 dB。我们认为这是相当大的改进了我们的RFA框架的有效设计，其中每个残差块中的残差特征可以被网络更好地利用这些比较表明，所提出的RFA框架对于图像SR的深度网络是必不可少的。4.3. 与密集块密集块[40]背后的动机也是为了结合沿网络深度可用的分层线索，以获得更丰富的特征表示。但组合发生在一个单一的残留模块。相比之下，我们的RFA框架旨在在更高级别上组合剩余特征。结合密集块应用RFA框架以进一步提高性能是合理的。在本消融研究中，我们使用42个密集组织块，以保持EDSR-基线和RFA-EDSR的参数数量相似。我们将密集块基线模型称为当应用密集块RFA框架（RFA-Dense）时，我们使用14个RFA模块来使这两个模型具有可比性。如表1第三列所示，射频密集将密集基线的性能从32.42 dB提高到32.51分贝。这表明所提出的RFA框架可以进一步结合针对密集块的分层信息请注意，这个半训练的RRA密集模型2364表1.不同块的消融结果结合RFA框架。我们报告了Set5（×4）上的最佳PSNR（dB）值，4×105次迭代。名称EDSR-基线RFA-EDSR密度-基线射频密集CASA欧空局RFA-CARFA-SARFA-ESA（RFANet）残余块致密块状√√√√√√√√√√√√√通道注意阻断空间注意阻滞增强的空间注意阻滞残留特征聚合√√PSNR32.4032.5032.4232.5132.5632.4832.5632.5632.5432.65Urban100（4x）：公司简介Manga 109（4x）：平成县门HRPSNR/SSIMDBPN29.35/0.8586HRPSNR/SSIMDBPN31.80/0.9463双三次25.42/0.7311SRFBN29.57/0.8647双三25.12/0.8003SRFBN31.94/0.9479FSRCNN27.34/0.7886RCAN29.79/0.8753FSRCNN28.40/0.8921RCAN31.94/0.948228.13/0.8243San29.58/0.8680LapSRN29.75/0.9245SAN32.04/0.9485EDSR29.09/0.8549RFA（我们的）29.88/0.8761EDSR31.27/0.9408RFA（我们的）32.33/0.9502图5.目视比较×4 SR与BI降解模型。已经具有比原始RDN更高的PSNR [40]。4.4. 与注意力阻断相通过引入注意机制，图像SR的性能得到了显著的改善.在这里，我们将全面调查我们的RFA框架应用于注意力块的效果表1显示了消融结果，包括通道注意力（CA）[38]、空间注意力（SA）[10]、增强空间注意力（ESA）及其组合（即，RFA-CA、RFA-SA和RFA-ESA）。如我们所见，通过单独使用通道注意块，PSNR已经达到32.56 dB，这证明了信道注意机制的优异性能普通SA具有比CA低得多的PSNR，但是当配备有我们的RFA框架时，RFA-SA实现了与CA相当的PSNR 相反，RFA-CA并没有表现出任何考虑-与CA相比有显著改善。这表明RFA框架最适合与空间注意机制一起使用为此，我们设计了一个增强的空间注意力块，它达到了与CA相同的PSNR，这表明它对图像SR的有效性。此外，RFA-ESA解决方案将ESA从32.56 dB提高到32.65分贝。这表明，所提出的RFA框架可以进一步提高空间注意机制的性能在所有研究的方法中，建议的RFA-ESA方法实现了最好的性能，我们将使用它来与最先进的方法进行比较。从现在开始，我们使用4.5. 双三次降解（BI）在图像SR设置中，用BI退化模型模拟LR图像被广泛使用。核实有效的-2365×××××表2. BI降解模型的定量结果。最佳和次佳结果突出显示并下划线。HR双三次SRFBNRCANRFANet（我们的）PSNR/SSIM20.46/0.568623.97/0.802424.25/0.814124.12/0.8156img083来自Urban100HR双三次SRFBNRCANRFANet（我们的）PSNR/SSIM27.27/0.916538.62/0.987539.01/0.988139.17/0.9885来自Manga109的图6.×4 SR与BD降解模型的目视比较。表3.BD降解模型的定量结果最佳和次佳结果突出显示并下划线。方法规模Set5产品14BSD100Urban100Manga109PSNR/SSIMPSNR/SSIMPSNR/SSIMPSNR/SSIMPSNR/SSIM双三×3×3×3×3×3×3×3×3×3×3×328.78/0.830826.38/0.727126.33/0.691823.52/0.686225.46/0.8149SPMSR [22]32.21/0.900128.89/0.810528.13/0.774025.84/0.785629.64/0.9003SRCNN [4]32.05/0.894428.80/0.807428.13/0.773625.70/0.777029.47/0.8924FSRCNN [5]26.23/0.812424.44/0.710624.86/0.683222.04/0.674523.04/0.7927VDSR [13]33.25/0.915029.46/0.824428.57/0.789326.61/0.813631.06/0.9234IRCNN [35]33.38/0.918229.63/0.828128.65/0.792226.77/0.815431.15/0.9245[36]第三十六话34.01/0.924230.11/0.836428.98/0.800927.50/0.837032.97/0.9391RDN [40]34.58/0.928030.53/0.844729.23/0.807928.46/0.858233.97/0.9465SRFBN [17]34.66/0.928330.48/0.843929.21/0.806928.48/0.858134.07/0.9466RCAN [38]34.70/0.928830.63/0.846229.32/0.809328.81/0.864734.38/0.9483[3]34.75/0.929030.68/0.846629.33/0.810128.83/0.864634.46/0.9487RFANet（我们的）×334.77/0.929230.68/0.847329.34/0.810428.89/0.866134.49/0.9492我们的RFANet，我们比较RFANet与12个国家的最先进的图像SR方法：SRCNN [4]，FSRCNN [5]，VDSR[13]，LapSRN [15]，MemNet [25]，EDSR [18]，SRMD [36] 、 NLRN [19] 、 DBPN [6] 、 RDN [40] 、RCAN [38][3]故表2显示了BI模型的所有定量结果总的来说，我们的RFANet可以实现与所有其他方法（包括极具竞争力的RCAN和SAN）相比相当或更好的结果。RFANet的大多数定量结果要么是最好的，要么是第二好的。对于尺度2，RFANet在Set14上实现了最佳结果，在Urban100上实现了最佳SSIM，在Manga109上实现了最高PSNR。对于尺度3，RFANet在所有数据集上都优于其他方法。我们的RFANet在规模4上也有很好的性能，分别在Set5、B100、Urban100和Manga109上取得了与其他方法相比，我们发现，我们的RFANet在Urban100和Manga109数据集上表现得特别好。这主要是因为两个数据集都包含丰富的结构化内容，我们的RFANet可以逐步聚合这些层次信息，形成更具代表性的特征。这个属性可以从我们的RFANet的SSIM分数进一步SSIM分数集中在图像中的可见结构例如，在Urban100（2）数据集上，我们的PSNR是第二好的，但我们实现了最好的SSIM，这表明我们的RFANet可以恢复更好的可见结构。在Set14（4）数据集上也可以发现类似的现象。图1的视觉比较5也可以证明我们的RFANet重建了更好的结构细节。4.6. 具有模糊降尺度降级（BD）的结果在[36，38，3]之后，我们还提供了模糊降尺度退化（BD）模型的结果。我们将RFANet与10种最先进的方法进行比较：SPMSR [22]，SRCNN [4]， FSRCNN[5]， [35]第十三届全国人大常委会第十三次会议[36]，RDN [40]，SRFBN [17]，RCAN [38]，和SAN [3]。如表3所示，我们的RFANet在所有数据集上都优于其他方法。具体来说，我们在Urban100数据集上实现了0.06dB的PSNR增益与SAN相比，Set14数据集上的PSNR增益是微不足道的，但我们仍然可以在SSIM方面取得相当大的RFANet的一致更好的结果图4.4显示了我们方法的视觉优越性。4.7. 残余特征聚合（RFA）我们现在说明我们的残留特征聚合设计如何影响网络不同阶段的输出特征。受[11]的启发，我们采用权重范数作为卷积层依赖性的近似值方法规模Set5产品14BSD100Urban100Manga109PSNR/SSIMPSNR/SSIMPSNR/SSIMPSNR/SSIMPSNR/SSIM双三×2×2×2×2×2×2×2×2×2×2×2×2×233.66/0.929930.24/0.868829.56/0.843126.88/0.840330.80/0.9399SRCNN [4]36.66/0.954232.45/0.906731.36/0.887929.50/0.894635.60/0.9663FSRCNN [5]37.05/0.956032.66/0.909031.53/0.892029.88/0.902036.67/0.9710VDSR [13]37.53/0.959033.05/0.913031.90/0.896030.77/0.914037.22/0.9750[15]第十五话37.52/0.959133.08/0.913031.08/0.895030.41/0.910137.27/0.9740[25]第二十五话37.78/0.959733.28/0.914232.08/0.897831.31/0.919537.72/0.9740EDSR [18]38.11/0.960233.92/0.919532.32/0.901332.93/0.935139.10/0.9773[36]第三十六话37.79/0.960133.32/0.915932.05/0.898531.33/0.920438.07/0.9761NLRN [19]38.00/0.960333.46/0.915932.19/0.899231.81/0.9246-/-DBPN [6]38.09/0.960033.85/0.919032.27/0.900032.55/0.932438.89/0.9775RDN [40]38.24/0.961434.01/0.921232.34/0.901732.89/0.935339.18/0.9780RCAN [38]38.27/0.961434.12/0.921632.41/0.902733.34/0.938439.44/0.9786[3]38.31/0.962034.07/0.921332.42/0.902833.10/0.937039.32/0.9792RFANet（我们的）×238.26/0.961534.16/0.922032.41/0.902633.33/0.938939.44/0.9783双三×3×3×3×3×3×3×3×3×3×3×3×330.39/0.868227.55/0.774227.21/0.738524.46/0.734926.95/0.8556SRCNN [4]32.75/0.909029.30/0.821528.41/0.786326.24/0.798930.48/0.9117FSRCNN [5]33.18/0.914029.37/0.824028.53/0.791026.43/0.808031.10/0.9210VDSR [13]33.67/0.921029.78/0.832028.83/0.799027.14/0.829032.01/0.9340[15]第十五话33.82/0.922729.87/0.832028.82/0.798027.07/0.828032.21/0.9350[25]第二十五话34.09/0.924830.01/0.835028.96/0.800127.56/0.837632.51/0.9369EDSR [18]34.65/0.928030.52/0.846229.25/0.809328.80/0.865334.17/0.9476[36]第三十六话34.12/0.925430.04/0.838228.97/0.802527.57/0.839833.00/0.9403NLRN [19]34.27/0.926630.16/0.837429.06/0.802627.93/0.8453-/-RDN [40]34.71/0.929630.57/0.846829.26/0.809328.80/0.865334.13/0.9484RCAN [38]34.74/0.929930.65/0.848229.32/0.811129.09/0.870234.44/0.9499[3]34.75/0.930030.59/0.847629.33/0.811228.93/0.867134.30/0.9494RFANet（我们的）×334.79/0.930030.67/0.848729.34/0.811529.15/0.872034.59/0.9506双三×4×4×4×4×4×4×4×4×4×4×4×4×428.42/0.810426.00/0.702725.96/0.667523.14/0.657724.89/0.7866SRCNN [4]30.48/0.862827.50/0.751326.90/0.710124.52/0.722127.58/0.8555FSRCNN [5]30.72/0.866027.61/0.755026.98/0.715024.62/0.728027.90/0.8610VDSR [13]31.35/0.883028.02/0.768027.29/0.726025.18/0.754028.83/0.8870[15]第十五话31.54/0.885028.19/0.772027.32/0.727025.21/0.756029.09/0.8900[25]第二十五话31.74/0.889328.26/0.772327.40/0.728125.50/0.763029.42/0.8942EDSR [18]32.46/0.896828.80/0.787627.71/0.742026.64/0.803331.02/0.9148[36]第三十六话31.96/0.892528.35/0.778727.49/0.733725.68/0.773130.09/0.9024NLRN [19]31.92/0.891628.36/0.774527.48/0.734625.79/0.7729-/-DBPN [6]32.47/0.898028.82/0.786027.72/0.740026.38/0.794630.91/0.91372366×0.320.300.280.260.240.220.200.18块1块2块3块41357911131517192123252729RFA模块索引27.026.526.025.525.0NLRNSRMD蔓梅LapSRNVDSRRFANet（我们的）SanDBPNRCANRDN图7.滤波器权重的平均范数。每组直方图对应于一个RFA模块。RFA模块内部有四个模块。直方图表示滤波器权重24.5FSRCNN0 5000 10000 15000 20000参数（k）在聚合卷积层W.R.T.每个区块的特征图。图9. PSNRvs. Urban100上的参数（×4）。剩余区块1剩余区组2残差块3剩余块4121直观的线索从这个可视化：（1）注意机制具有调节激活值的作用。我们可以看到下面一行的激活范围3剩余区块1剩余区组2残差块32剩余块4小于顶行，这可以在一定程度上减轻训练困难（例如，EDSR中的残差缩放[18]）。(2)经过注意机制后的特征图倾向于包含更多的负值，表现出更强的抑制输入图像平滑区域的效果，这进一步导致更准确的残差图像。图8.残差块的平均特征图在其前面的层上。权重范数由来自所有滤波器w.r.t.聚合11卷积层中的每个残差特征图（参见图11）。（3）第三章。一般来说，范数越大，它对这个特定特征图的依赖性就越强。为了清晰起见，我们选择在总共30个RFA模块中每两个模块进行可视化。图7表示滤波器权重vs的范数。特征图索引。图的传说。图7示出了每个RFA模块中的残差块的索引。从该图中可以观察到以下几点：（1）聚合层将其权重分布在所有残差块上，这表明所有残差特征都直接用于产生RFA模块的输出特征。(2)后几个模块的权范数的变化比前几个模块的大。这表明网络逐渐学会区分剩余特征，并为至关重要的特征分配更多权重（3）在开始时，最后一个块比其他三个块贡献最大。随着深度的增加，其他三个块在特征学习中也起着重要的作用，说明了残差特征聚合的必要性。4.8. 增强空间注意力的效果图8可视化了RFA模块内的残差块的平均特征图。顶行是注意力机制之前的特征图，底行是注意力机制之后的特征图。我们可以得到一些4.9. 模型复杂性分析图9显示了11种最先进的SR方法的模型大小和性能的比较： SRCNN [4] ， FSRCNN [5] ， VDSR [13] ，LapSRN [15]，MemNet [25]，NLRN [19] 、 SRMD [36] 、 DBPN [6] 、 RDN [40] 、RCAN [38][3]故与RDN、RCAN和SAN相比，RFANet的参数少得多与DBPN相比，我们的RFANet实现了更高的PSNR与稍大的模型，表明我们有一个很好的性能和模型复杂度之间的权衡。5. 结论In this paper, we propose a general residual feature ag-gregation (RFA) framework for image SR. RFA框架有效地将残差块分组在一起，其中局部残差块的特征被直接发送到RFA框架的末端，以充分利用这些有用的分层特征。为了最大限度地提高RFA框架的能力，我们进一步设计了一个增强的空间注意力（ESA）块，使残差特征更加集中在关键重要性的空间内容上。与国家的最先进的方法相比，我们提出了RFA

下载后可阅读完整内容，剩余1页未读，立即下载