动态高通滤波与多光谱关注图像超分辨率的研究成果

22 浏览量更新于2023-09-29 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4288×动态高通滤波与多光谱关注图像超分辨率Salma Abdel Magid1，Yulun Zhang2，Donglai Wei3，Won-DongJang1，Zudi Lin1，Yun Fu2，Hanspeter Pfister11哈佛大学2东北大学3波士顿学院摘要深度卷积神经网络（CNN）推进了超分辨率（SR）研究的前沿。然而，目前的CNN模型存在一个重大缺陷：他们倾向于学习低频信号Urban100：img024[47]第四十七话：我的世界nals。这种偏差对于以重建所有精细细节和图像纹理为目标的图像SR任务变得更成问题为了应对这一挑战，我们建议提高本地和全球的高频功能的学习，并引入两个新的架构单元，现有的SR模型。具体而言，我们提出了一个动态高通滤波（HPF）模块，局部应用自适应滤波器的权重为每个空间位置和通道组，以保持高频信号。我们还提出了一个矩阵的多光谱信道的注意力（MMCA）模块，预测在频域分解的功能的注意力图。该模块在全局上下文中运行，以自适应地重新校准不同频率的特征响应。广泛的定性和定量结果表明，我们提出的模块实现了更好的准确性和视觉改善对国家的最先进的方法在几个基准数据集。1. 介绍图像SR是从其低分辨率（LR）对比部分估计高分辨率（HR）图像的建模任务。图像SR是一个具有挑战性和不适定的问题，因为存在多个解决方案的任何LR输入。考虑到深度学习的最新进展，基于卷积神经网络（CNN）的SR方法已经在各种各样的研究领域中被利用，例如生物医学、对象识别和高光谱成像[9，21，32，43]。SR在这些领域的有希望的结果和潜在影响已经引起了视觉研究界的关注。已经提出了许多基于CNN的方法[4，5，6，7，17，20，47，49]，并且显著优于传统方法。符合'极深'的图1：Ur-ban 100的“图像024”上的目视比较（4）现有方法遭受模糊伪影。范例，这些方法使用具有数百层的过参数化网络。这种方法通常与最近的架构突破相结合，称为剩余学习。残差学习缓解了由于深度增加而引起的退化问题，并简化了学习任务，从而提高了网络收敛性。虽然这些进步增强了性能，曼斯和现在是司空见惯的SR网络，这些方法仍然遭受严重的缺陷（见图1）。已经证明，神经网络表现出对低频信号的偏置。图2展示了这方面的一个主要示例。在流行且强大的SR基线RCAN [47]的输出中，我们可以看到高频数据显著减少，导致重建过于平滑。这是由于训练的许多方面，例如损失函数、架构类型和优化方法。Ledig等人[20]已经表明，标准的逐像素度量（L1或L2）倾向于将重建拉向在自然图像流形上的L2类似地，由于网络的架构和优化方法，更高的频率难以传播[2]。它们首先被低频模式迅速饱和，从而停止对额外信息的学习。由于通道之间存在高度的信息冗余，最近的许多工作提出使用各种注意力机制来重新加权通道。经典的信道注意机制SENet [13]具有一个主要缺点。Qin等人[33]理论上证明，通过使用全局平均池化，SENet丢弃除最低频率之外的所有其他频率。另一个问题HR双三DBPN [11]42890.0200.0150.0100.0050.000HRRCAN我们5075100125150175200225250像素值2. 相关工作图像超分辨率。最先进的基于深度学习的SR方法将问题假设为学习由低分辨率和高分辨率图像之间的深度CNN表示的端到端映射的密集回归任务Dong等的开创性工作。[6]首先利用深度学习使用三层CNN解决SR问题，并在后续工作中进一步提高了训练效率[7]。在这一首次尝试之后，许多作品通过使用“非常深”来实现更好的性能。图2：一个样本的分布比较从图中所示的面片中采样的顺序像素1. 现有方法产生过度平滑的分布。出现的是混叠，即高频信号在采样后退化的现象。这是由于下采样层，其广泛用于深度网络以减少参数和计算[51]。当我们考虑Sider图像SR应用程序，这些缺陷加剧，因为建模任务需要高频信息，灰完成。出于这些问题，我们建议通过确保高频信息通过网络传播来弥合这一鸿沟。我们在本地和全球范围内解决这个问题。我们的全球性的方法是修改现有的信道注意力机制，利用更广泛的频谱，与现有的方法。这增加了网络的表示能力，并保持了特征之间的相互依赖性我们建议在一个动态的和上下文感知的方式，除了一个新的通道注意机制，放大高频的细节我们为每个空间位置学习不同的高通滤波内核，然后将其应用于其相应位置处的输入低频信息通过长距离和短距离跳跃连接保存通过在卷积操作之后进行高通滤波操作，我们将网络综上所述，我们的主要贡献如下：• 我们提出了一个动态高通滤波层的图像超分辨率（SR）网络。该模块通过使网络能够专注于有用的空间内容来增强网络• 我们进一步提出了一个矩阵多光谱通道注意力机制，预测在频域中分解的功能的注意力图。然后基于特征通道的最大频率响应自适应地重新缩放特征通道。• 我们提供了可视化的结果和分析我们提出的模块。我们还进行了广泛的比较parisons与最近的图像SR方法，并取得了显着的收益定量和视觉。“范式最近的工作集成了不同的通道和空间atten- tion机制，利用不同层，通道和位置的相互作用。Dai等人[4]提出了SAN，它包括一个注意力模块，通过考虑特征的二阶统计来学习特征的相互依赖性。Niu等人提出了HAN [30]，其包括层注意力模块和信道空间注意力模块，以通过考虑层之间的相关性来强调分层特征。RBAN [5]由两种类型的注意力模块组成，用于特征表达和特征相关学习。我们与这些作品的不同之处在于明确地专注于高频信号的学习。视觉注意。SENet [13]通过全局平均池化为每个通道使用单个全局描述符来完成通道atten- tion。然后将这些描述符传递到多层感知器（MLP）以计算每个通道的权重。一些工作已经通过整合空间注意力扩展了这个原始方案，包括CBAM [41]，DAN [10]和scSE [34]。其他工作包括各种技术，以减少MLP（ECANet）[39]中全连接层的冗余，并选择性地聚合通道（SKNet）[22]。然而，这些方法中的大多数仅使用特征的频谱的最低频率分量（经由平均）[33 ]第33段。为了克服这一点，FcaNet [33]通过提出一种基于频率的信道注意力方法来构建原始SENet。这是通过将信道分组并将相同的单个频率分配给给定组中的每个信道来完成的。每个通道的全局描述符是通过离散余弦变换计算的其对应的频率系数通过这种方式，它们扩展了注意力机制所使用的频率。我们适应和改进这种机制，以图像SR，考虑，每个通道的多个频率分量。自适应过滤层。图像滤波是图像恢复任务中的经典计算机视觉技术，包括超分辨率、去噪和图像修复[36]。先前的作品已经集成了经典滤波器（例如，Gaussian）转换为深度模型，以解决不同层次的视觉任务。els [14，42，46].然而，那些过滤器具有固定元件，密度4290w11（N，k2，...（N，C/g，H，W）...（N，C，H，W）W（N，C，H，W）GG×∈∈∈+ F（ConvReLUConvCAConvHPFReLUConvMMCA+ F（（a）（b）图3：原始（a）RCAN [47]和（b）我们的残差块的比较。我们在第一次卷积后添加动态高通滤波（HPF）层，并用修改后的多光谱通道注意力（MMCA）替换标准通道注意力（N，k2，H，W）（N，C/g，H，W）将所述适配限制到特定空间位置和图像内容。此外，这些滤波器需要仔细调整超参数。因此，最近的工作也使滤波器在优化期间可学习，并且基于局部特征空间变化[16，35，51]。具体地，Zouet al. [51]将学习的滤波器限制为低通，以抵消模型下采样层中的混叠伪影我们通过引入动态高通滤波（HPF）层，将其方法纳入超分辨率模型HPF层可以更好地保留深度模型中的高频信号，这有利于SR任务，因为它需要精细的细节和纹理。3. 该方法在本节中，我们介绍我们的方法，动态滤波和频谱注意力（DFSA）。它由两个新颖的模块组成，这两个模块可以无缝地集成到现有的SR体系结构中（例如，RCAN [47]）以提高超分辨率的性能，包括矩阵多频谱信道注意（MMCA）模块（Sec. 3.2）和动态高通滤波层（HPF）模块（Sec.第3.1节）。这些模块动态地进行局部和全局频率调制。HPF通过针对每个空间位置动态学习和应用不同的高通内核来放大输入特征的高频。MMCA然后使用信道的最大频率响应相对地重新缩放信道。图3展示了如何将这些模块集成到图像SR网络中使用的标准残差块中。3.1. 动态高通滤波层（HPF）遵循[51]的设计方法，滤波层学习动态生成不同的空间和通道高通内核，然后将其应用于各自的位置。在输入特征的空间范围上使用相同的内核可能无法准确地捕获所有高频细节，因为信号的频率可能在空间位置上显著变化。因此，我们为每个空间位置学习不同的高通内核，图4：权重生成（G（X））和动态过滤层中的应用，如[51]（a）中所述，与我们在（b）中的修改相比。对于每组通道，我们为每个空间位置预测不同的k k高通内核。然后将内核应用于它们各自的位置以产生最终输出。第同样，我们也可以为每个通道学习不同的内核。这将导致严重的计算开销。由于信道特征中存在信息冗余，因此将信道划分成组就足够了因此，我们将C个通道分成g个组，并为每个组预测一组不同的高通内核。图4示出了HPF模块。给定一个输入XR H× W× C，我们学习X的每个空间位置（i，j）的g个内核，然后将这些内核应用于X各自的局部位置和组中，以产生我们的输出Y。注意，对于每个空间位置（i，j），存在围绕它的一组点（由图4中覆盖在X上的灰色框指示），其涉及内核wg的应用。这种技术使我们能够将高频传播到后续层。通过在整个网络的深度使用该模块，我们可以保留高频信息。为了学习过滤器，我们遵循[51]，对输入特征X应用标准卷积，然后进行批量归一化，其中X R N× H × W×C。这就产生了我们的核w，其中w Rn×g ×k2×h ×w。在[51]中，作者通过应用softmax函数将权重约束为正值并求和为1，确保他们的滤波器是低通的。为了产生相应的高通内核，我们简单地通过从恒等内核减去低通内核来反转它，如图4的（b）所示。3.2. 矩阵多谱信道注意信道注意（CA）。在放大残差块的特征提取层中的高频细节之后，我们接下来通过使用CA在全局上下文中操作。回想一下，标准方法SENet [13]使用全局平均池化（GAP）计算每个通道的平均值。G（X）（一）（b）第（1）款G（XConvBNSoftmaxWConvBNSoftmax反转W4291Σ Σ∈∈∈.Σ。Σ∈H2W2ΣΣ0，0（i+））cos（（j+））H2W22小时2WH−1W−1X：，：，i，jAT其中D∈RC×J。i=0时j=0（C，H，W）（C、J）（C，H，W）（C，1）（C，1）DCT输入特征频率嵌入MaxPool MLP通道关注重新加权特征图5：DCT基函数的可视化。或范围框（左上和右下）指示用于MMCA模块的所选频率分量。图6：MMCA模块。首先使用离散余弦变换将输入特征变换到频域。所得矩阵被最大池化，然后作为输入馈送到提供信道注意力的MLP。合成产生系数g，h，w，其仅仅是输入的加权和。参数h和w控制余弦函数的频率。假设等式中的h和w。1是0，我们有：H−1W−1我们回顾了[33]的理论发现，这些发现表明这种方法只使用了最低频率g=Σ Σxi=0时j=001Cos（01输入特征的形成。因此，任何图像增强（即，图像SR、去模糊、去噪等）使用CA的网络正在丢弃用于图像重建的其他潜在有用的高频信息我们声称这些高频成分携带着有价值的信息-H−1W−1=xi，ji=0j =0=GAP（x）·H·W。（二）第因此，我们提出了一种修改后的CA机制，使用几个频率分量为每个信道。转换为频域。有几种变换方法可以用来将信号分解到其空间频谱。频率分析的主要方法是离散傅立叶变换（DFT）。虽然这被广泛使用，但由于其简单性，我们将转而关注另一种有吸引力的方法，即离散余弦变换（DCT）[1]。DCT使用以不同频率振荡的余弦函数的总和来表达一组数据点。人们可以通过仅考虑分解的实分量来将DCT视为DFT的特殊情况DCT具有独特的性质，这使其成为最广泛使用的图像压缩标准和数字图像格式的核心。DCT具有很强的这对于通常存在大的均匀信号区域的自然图像数据尤其如此。对于输入xRH×W，其中H是x的高度，W是x的宽度，2D DCT频谱，如果我们设置h=0，w=0，那么我们可以看到余弦项的值为1，我们只是对输入求和（并除以归一化因子）。由方程式2，g0，0表示2D DCT的最低频率分量，并且它与GAP成比例。矩阵多谱CA 我们接近我们的CA机制的设计使用这些研究结果。由于我们的目标是利用更多的特征频谱，我们遵循[33]并使用DCT将我们的输入转换为频率嵌入。每个通道的全局描述符则是最大频率响应。我们在下面提供了其他技术细节使用DCT的好处是我们可以预先计算DCT权重作为预处理步骤。这样，在训练和测试期间，几乎没有额外的开销。我们的方法的细节在图6中描述。假设对于每个通道C，在我们的输入特征X中，其中XRC×H ×W，我们想要使用J个频率分量。我们使用等式（1）预先计算DCT权重的矩阵ARJ×C ×H ×W也就是说，对于第r个频率分量guv，我们计算Ar，：，i，j=cosπu（2i+1）cosπv（2j+1）H−1W −1r0，1，2，.. J分量（u，v），r对应于特定的g=Σ Σxπh1Cos（πw1扩展X使得X∈R1×C ×H ×W，则每-h，wp=0q=0p，q（p+））cos（（q+）），`DCTweightsx形成逐元素乘法，然后是空间乘法。求和产生DCT系数。这些系数S.T. h ∈ {0，1，···，H − 1}，w ∈ {0，1，···，W − 1}，是我们的J全局描述符。更具体地说：D =为了简单起见，我们省略了不影响结果的归一化常数。正如在FCANet [33]中所讨论的那样，这个为了减少频率全局描述符的矩阵，我们取每个通道的最大频率响应C。i、jg∈RH×W定义为：哪里. 注意（一）：，：，i，j4292×1+e表1：频率元件数量的消融研究。使用Urban100以×4量表进行评价一二四八十六峰值信噪比26.24 26.36 26.3826.3926.33然后我们应用函数F（x），其中F对应于FC层，然后是由函数S（x）表示的标准S形，其中S（x）=1−x，如下所示：attnc= S（ F（max Dc））。J最后，使用最终计算的注意力对输入特征X重新加权因此，J个频率中的每一个都对最终注意力有贡献。 FcaNet [33]对信道进行分组，并将相同的频率分量分配给同一组内的信道。另一方面，我们不做此限制，而是分别对每个通道取J分量上的最大响应。4. 实验4.1. 设置数据集。存在用于具有变化的图像内容、分辨率和质量的图像SR的各种数据集。为了训练和测试我们的模型，我们使用DIV2K [38]图像数据集。DIV2K是一个新提出的丰富图像数据集，由800张训练图像、100张测试图像和100张验证图像组成。为了用更多不同的纹理来丰富训练集，我们还使用了Flickr2K数据集[24]。为了测试，我们使用了五个标准的基准数据集：[2019- 05 - 15][2019 - 05][201评估指标。为了评估我们的方法，我们遵循标准实践并报告峰值信噪比（ PSNR ）和结构相似性度量（SSIM）[40]。这些度量被应用于Y通道（即在一些实施例中，变换后的RGB图像在YCbCr空间中的亮度（亮度）。培训设置。为了训练我们的模型，一批16 LR RGB图像被随机采样并裁剪为48 - 48的大小。使用随机水平翻转和90°旋转来增强训练贴片。我们的模型使用ADAM优化器[18]通过设置β1=0.9，β2=0.99和ε=10−8进行训练。初始学习率设置为10−4，每200个epoch减半。我们使用l1损失，因为它已被经验证明优于图像SR任务的l2损失该模型在PyTorch中实现[31]，并使用单个Nvidia V100 GPU进行训练。我们将我们提出的模块HPF和MMCA集成到RCAN[47]中。RCAN由10个残差组（RG）组成，每个残差组包含20个残差块（RB）。通道数设置为64。为了减少计算开销，我们将我们的组件仅放置在RCAN的每个RGHPF模块添加在表2：标准残余阻滞中HPF模块数量的消融研究。使用Manga109评价4倍标度下的基准。#0 1 2峰值信噪比（PSNR）30.6530.82 30.74表3：HPF模块中组数的消融研究。使用Manga109以×4比例进行评价#2 4 8 16峰值信噪比（PSNR）30.82 30.79 30.8230.88第一个卷积如图3所示，同时CA与我们的MMCA交换。我们将HPF中的组数设置为8。每个信道的频率分量的数量也是8。所选择的组件是高频和低频的组合。这些超参数设置将在下文相应的消融研究小节中进行更详细的讨论。为了计算频率系数，我们首先自适应地下采样频率系数。将通道设置为7×7的空间范围，类似于[33]。4.2. 消融研究HPF在标准残差块中的位置。为了确定在标准残余块（RB）中放置多少HPF层以及放置在何处，我们进行了消融研究。图6示出了在第一卷积层之后的RB内的HPF层的定位。或者，我们可以通过在第二卷积之后放置另一个HPF层来创建对称操作，使得每个卷积之后都是高通滤波操作。然而，我们在表2中的实验表明，添加单个HPF就足够了。这也表明了该层的有效性并不是简单地由于增加了参数的数量。HPF组的数量。为了研究HPF模块中组数量的影响，我们通过改变组超参数进行消融研究，类似于[51]。表3表明，增加组的数量通常导致性能的改善。由于我们为每个组计算一组不同的过滤器，因此随着网络深度的增加（即，更多的残留块）。为了缓解这一问题，我们采取了中间立场，使用8组，因为性能差异很小，计算效率更高。以这种方式，学习的滤波器可以适应跨特征通道的不同频率，同时通过学习每组相同的滤波器来节省HPF滤波器分析。为了更好地理解HPF模块的行为，我们分析了学习的过滤器，类似于[51]。不同过滤器的区别在于它们的不同-ance. 例如，k×k平滑滤波器，也称为4293K××××××× ××作为平均滤波器，具有零方差，因为它由每个值为1的等效元素组成。图7可视化了不同空间位置上学习的滤波器权重的方差。HPF模块学习过滤器表4：与图像SR中的其他注意机制的比较。通过使用Urban100和Ma nga109基准在×4规模。模块SENet FcaNet MMCA（我们的）在空间上适合于不同图像内容。例如在在图7中的鸟的第一图像中，在叶子边缘处存在突然和急剧过渡的地方精确地存在高变化同样，在建筑物的图像中，有几个边缘和像素强度波动，我们的HPF滤波器能够放大。因此，学习的滤波器可以在卷积之后传播高频细节，同时保留有用的图像内容。我们还可以看到，滤波器能够捕获具有尖锐强度过渡的较高频率信息，同时衰减较低频率的细节，例如均匀的背景。频率分量的数量。为了研究频率分量数量的适当选择，我们进行了消融研究，类似于[33]。表1比较了在信道注意模块中使用多个频率分量的效果。总的趋势是明确的：增加频率分量的数量将提高性能。然而，在某一点（表1中的16个频率分量），性能停滞。所有实验使用一个以上的频率分量在我们的修改后的频率为基础的信道的注意力相比，标准信道的注意力表现出很大的性能差距。我们声称，这是由于这样一个事实，即只使用一个频率分量丢弃有用的信息。附加特征对其他显著信息进行编码，并且可以补偿由平均池化编码的因此，基于其频率的池化特征导致有意义的全局描述符。这验证了我们的主张，即添加额外的频率信息有助于网络从更宽的频谱中集成更多考虑到这些结果，我们使用8个组件作为最终模型。所选择的频率分量在图5中示出。跨图5中的基函数的DCT网格的行和列移动对应于在垂直或水平方向上振荡更多直观地，左上角对应于在任一方向上的零振荡（即，h=0，w=0），这导致常数项。另一方面，最高的垂直和水平频率分量在右下角。通过在DCT矩阵的这些角落中选择分量，我们为MMCA模块提供了多样化的频谱。与其他注意力机制的比较我们比较我们的方法与标准的SENet和FcaNet。如表4所示，我们修改后的频率通道注意力优于两个基线。通过将更宽的频谱的输入功能，我们能够自适应地重新加权的通道，这反过来又能够提高性能。我们之间的关键区别城市100 26.24 26.2926.392019年10月30日2019年10月30日图7：从第4个残差块、第5组学习的动态高通内核的方差。内核正确地学习过滤高频细节，如尖锐的像素值转换。方法和FcaNet的区别在于FcaNet对信道进行分组，并将相同的频率分配给组中的每个信道。相反，通过计算每个通道的多个频率系数，然后选择最大频率响应，我们能够捕获并专注于高频。此外，我们可以将频率的选择视为一种切换，通过这种切换，我们可以扩展频谱。4.3. 与最新方法的我们将我们的方法与表5中的17种最先进的图像SR方法进行了广泛的比较。对于定性比较parisons，我们比较了7个国家的最先进的方法，在非常具有挑战性的情况下。定量结果。表5示出了2、3和4的定量比较。4个结果。如表5所示，我们的模型在各个尺度和基准上都优于所比较的方法持续较高的PSNR和SSIM值为研究图像SR的频域提供了有希望的潜力。我们的方法达到了最大的PSNR增加0.52分贝的2规模，0.48分贝的3规模，和0.45分贝的4规模。最大PSNR增加指示对于给定尺度在所有数据集上发生的我们的方法和第二最佳方法之间的最大差异如前所述，我们使用RCAN作为SR骨干。因此，当我们比较修改后的模型和RCAN之间的参数数量时，它们大致相等。尽管情况如此，我们的模型优于RCAN，对于2尺度，最大PSNR增加0.54dB，对于2尺度，最大PSNR增加0.63dB。3标度为0.66dB，4标度为0.66dB。通过将RCAN中的每个RG的最后一个RB修改为图3（b）的RB，我们能够专注于更多信息特征并放大高频分解。4294表5：与其他现有技术方法的定量比较显示了几个基准测试的比例因子×2、×3和×4的平均PSNR（dB）和SSIM最佳和第二佳性能分别用粗体和下划线表示方法规模Set5产品14B100Urban100Manga109PSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIM[19]第十九话×2×2×2×2×2×2×2×2×2×2×2×2×2×2×2×2×237.520.959133.080.913031.080.895030.410.910137.270.9740MemNet [37]37.780.959733.280.914232.080.897831.310.919537.720.9740EDSR [24]38.110.960233.920.919532.320.901332.930.935139.100.9773SRMDNF [45]37.790.960133.320.915932.050.898531.330.920438.070.9761DBPN [11]38.090.960033.850.919032.270.900032.550.932438.890.9775RDN [49]38.240.961434.010.921232.340.901732.890.935339.180.9780RCAN [47]38.270.961434.120.921632.410.902733.340.938439.440.9786NLRN [25]38.000.960333.460.915932.190.899231.810.9249N/AN/A[第48话]38.170.961133.870.920732.310.901432.730.934039.230.9785SRFBN [23]38.110.960933.820.919632.290.901032.620.932839.080.9779OISR [12]38.210.961233.940.920632.360.901933.030.9365N/AN/A[4]38.310.962034.070.921332.420.902833.100.937039.320.9792CSNLN [29]38.280.961634.120.922332.400.902433.250.938639.370.9785RFANet [26]38.260.961534.160.922032.410.902633.330.938939.440.9783韩[30]38.270.961434.160.921732.410.902733.350.938539.460.9785噪音感应强的地方[8]38.230.961433.940.920332.340.902033.020.936739.310.9782[第50话]38.240.961334.070.921732.410.902533.230.938339.350.9786DFSA（我们的）×238.380.962034.330.923232.500.903633.660.941239.980.9798[19]第十九话×3×3×3×3×3×3×3×3×3×3×3×3×3×3×3×333.820.922729.870.832028.820.798027.070.828032.210.9350MemNet [37]34.090.924830.000.835028.960.800127.560.837632.510.9369EDSR [24]34.650.928030.520.846229.250.809328.800.865334.170.9476SRMDNF [45]34.120.925430.040.838228.970.802527.570.839833.000.9403RDN [49]34.710.929630.570.846829.260.809328.800.865334.130.9484RCAN [47]34.740.929930.650.848229.320.811129.090.870234.440.9499NLRN [25]34.270.926630.160.837429.060.802627.930.8453N/AN/A[第48话]34.660.929030.530.846329.260.809028.750.864634.250.9483SRFBN [23]34.700.929230.510.846129.240.808428.730.864134.180.9481OISR [12]34.720.929730.570.847029.290.810328.950.8680N/AN/A[4]34.750.930030.590.847629.330.811228.930.867134.300.9494CSNLN [29]34.740.930030.660.848229.330.810529.130.871234.450.9502RFANet [26]34.790.930030.670.848729.340.811529.150.872034.590.9506韩[30]34.750.929930.670.848329.320.811029.100.870534.480.9500噪音感应强的地方[8]34.620.928930.570.847529.260.810028.830.866334.270.9484[第50话]34.720.929830.660.848429.310.810529.030.869634.390.9496DFSA（我们的）×334.920.931230.830.850729.420.812829.440.876135.070.9525[19]第十九话×4×4×4×4×4×4×4×4×4×4×4×4×4×4×4×4×431.540.885028.190.772027.320.727025.210.756029.090.8900MemNet [37]31.740.889328.260.772327.400.728125.500.763029.420.8942EDSR [24]32.460.896828.800.787627.710.742026.640.803331.020.9148SRMDNF [45]31.960.892528.350.778727.490.733725.680.773130.090.9024DBPN [11]32.470.898028.820.786027.720.740026.380.794630.910.9137RDN [49]32.470.899028.810.787127.720.741926.610.802831.000.9151RCAN [47]32.630.900228.870.788927.770.743626.820.808731.220.9173NLRN [25]31.920.891628.360.774527.480.730625.790.7729N/AN/A[第48话]32.430.897728.830.787127.720.741026.610.802331.090.9149SRFBN [23]32.470.898328.810.786827.720.740926.600.801531.150.9160OISR [12]32.530.899228.860.787827.750.742826.790.8068N/AN/A[4]32.640.900328.920.788827.780.743626.790.806831.180.9169CSNLN [29]32.680.900428.950.788827.800.743927.220.816831.430.9201RFANet [26]32.660.900428.880.789427.790.744226.920.811231.410.9187韩[30]32.640.900228.900.789027.800.744226.850.809431.420.9177噪音感应强的地方[8]32.550.898728.790.787627.720.741426.610.802531.100.9145[第50话]32.570.899828.850.789127.770.743426.840.809031.280.9182DFSA（我们的）×432.790.901929.060.792227.870.745827.170.816331.880.9266尾该观察结果表明HPF和MMCA模块显著提高了性能。在我们的模型中，每个RG的最后一个RB用作门，其（1）通过高频细节，并且（2）当重新缩放传出的RF信号功能.由于我们的模块在残差组内运行，因此通过跳过连接保留低频细节，从而实现更好的定量结果。定性结果。在图8中，我们直观地示出了来自Ur-Ur的几个图像的定性比较4295××HR双三EDSR [24]DBPN [11]RFANet [26]Urban100：img 044（×4）RDN [49] SAN [4] CSNLN [29] RCAN [47] DFSA（我们的）HR双三EDSR [24]DBPN [11]RFANet [26]Urban100：img 008（×4）RDN [49] SAN [4] CSNLN [29] RCAN [47] DFSA（我们的）HR双三EDSR [24]DBPN [11]RFANet [26]Urban100：img 034（×4）RDN [49] SAN [4] CSNLN [29] RCAN [47] DFSA（我们的）HR双三EDSR [24]DBPN [11]RFANet [26]Urban100：img 059（×4）RDN [49] SAN [4] CSNLN [29] RCAN [47] DFSA（我们的）图8：Urban100数据集上4个SR的视觉比较大多数比较的方法遭受模糊伪影。我们的方法是能够重建高频细节比现有的方法。在4级量表上的ban100基准。我们的模型比其他方法更准确地重建图像。我们的方法可以正确地产生不同的模式，而其他方法的输出包含模糊的补丁或文物。例如，我们的方法特别适合于线路重建。在Urban100数据集的“img034”中，我们的方法可以正确地产生砖的子集。建筑物的墙壁。在“img059”中其余的方法都遭受模糊伪影在这个补丁。我们的方法是能够减轻模糊的文物和恢复更多的高频细节。更重要的是，我们的方法可以清楚地描绘几个结构，如“img 008”中所示，而其他方法在垂直和/或水平方向上组合和模糊线。这些比较表明，我们修改后的残差块可以从LR空间中提取更复杂的功能。5. 结论本文介绍了矩阵多光谱通道注意力（MMCA）和动态高通滤波（HPF）模块，以提高学习的高频特征的图像SR任务。随着新的和无缝集成的建议模块到一个标准的SR骨干（RCAN），我们可以充分关注输入功能的高频细节。我们的实验表明，在卷积层之后进行动态高通滤波操作能够保留基本的细节和纹理。我们结合这个模块与MMCA包年龄一个新的，功能强大的残差块，可以无缝集成到不同的架构。对于MMCA模块，我们需要确定如何适当地选择频率分量。进一步探索的一个有希望的途径是将其潜在地纳入学习任务中。鸣谢。这项工作得到了NIH奖5 U 54 CA 225088 -03和NSF奖IIS-1835231的部分支持。4296引用[1] Nasir Ahmed，T Natarajan，and Kamisetty R Rao.离散余弦变换。IEEE Transactions on Computers，100（1）：90-93，1974. 4[2] Devansh Arpit，Stanisaw Jastrzebski，Nicolas Ballas，DavidKrueger ， EmmanuelBengio ， MaxinderSKanwal ， TeganMaharaj ， Asja Fischer ， AaronCourville，Yoshua Bengio，et al.深入研究深度网络中的记忆ICML，2017。1[3] Marco Bevilacqua、Aline Roumy、Christine Guillemot和Marie Line Alberi-Morel。基于非负邻域嵌入的低复杂度单幅图像超分辨率在BMVC，2012年。5[4] Tao Dai，Jianrui Cai，Yongbing Zhang，Shu-Tao Xia，and Lei Zhang.单幅图像超分辨率的二阶注意力网络。在CVPR，2019年。一、二、七、八[5] 戴涛，查华，姜勇，夏淑涛。基于残差块注意网络的图像超分辨率。在CVPRW，2019年。一、二[6] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang. 使用深度卷积网络的图像超分辨率。TPAMI，2016. 一、二[7] Chao Dong，Chen Change Loy，and Xiaoou Tang.加速超分辨率卷积神经网络。在ECCV，2016年。一、二[8] Chen Fan，Jiahui Yu，Yiqun Mei，Yulun Zhang，YunFu，Ding Liu，and Thomas S Huang.用于图像恢复的神经稀疏表示。在NeurIPS，2020年。7[9] Linjing Fang ， Fred Monroe ， Sammy Weiser Novak ，Lyndsey Kirk ， Cara R Schiavon ， B Yu Seungyoon ，Tong Zhang

下载后可阅读完整内容，剩余1页未读，立即下载