基于傅立叶空间损失的有效感知图像超分辨率

10 浏览量更新于2023-10-14 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2360×个×个∈∈有效感知图像超分辨率的傅里叶空间损失Dario Fuoli1Luc Van Gool1，2Radu Timofte11瑞士苏黎世联邦理工学院计算机视觉实验室2比利时列伊大学{dario.fuoli，vangool，radu.timofte} @ vision.ee.ethz.ch摘要许多超分辨率（SR）模型仅针对高性能进行优化，并且因此由于大的模型复杂性而缺乏效率。由于大型模型在现实世界的应用中通常不实用，因此我们研究并提出了新的损失函数，以使SR具有更高的感知质量，从更有效的模型。对于给定的低复杂度发电机网络的代表性功率只能通过对最优参数集的强指导来充分利用。我们表明，它是可能的，以提高最近推出的高效发电机架构的性能，仅与我们提出的损失函数的应用程序。特别地，我们使用傅立叶空间监督损失来改进从地面实况图像中丢失的高频（HF）内容0.280.260.240.220.200.180.160.140.120.10十两运行时间[ms]103并设计了一种直接在傅立叶域工作的鉴别器结构我们表明，我们的损失直接强调傅立叶空间中的频率显着提高了感知图像质量，同时保持高恢复质量相比，以前提出的损失函数这项任务。通过利用空间和频域损失的组合，性能得到进一步改善，因为两种表示在训练期间提供了补充信息最重要的是，经过训练的生成器实现了与和2相当的结果。4和48 比最先进的感知SR方法RankSRGAN和SRFlow。1. 介绍超分辨率（SR）处理从低分辨率（LR）图像x RH×W ×C重建高频（HF）信息的问题，这些信息在对高分辨率（HR）图像y进行下采样后会丢失RrH×rW×C（由于较低的奈奎斯特频率）在LR空间中（r表示缩放因子）。最近的单图像SR（SISR）方法[4，17，22，19，10，14]在重建丢失的HF细节方面取得了显着的成功，重点是准确恢复频率。图1.运行时间[ms]与感知质量（LPIPS）[36] com-与DIV2K验证集上的最新方法进行比较。磁盘面积与参数的数量成正比。我们实现了最快的运行时间，具有与更大的网络相当的感知质量在地面实况帧中的频率内容。这通常利用监督训练来执行，其中，地面实况图像y利用已知的内核（例如，bicubic，以获得LR输入图像x。虽然在一些应用中可能期望以最小假设尽可能接近目标地重新存储频率，但是不适定问题限制SR网络生成更高频率分量，因为训练促进由逐像素监督损失施加的保守估计。这通常导致模糊的图像，其看起来比它们各自的HR对应物具有更低的质量。这个问题已经在文献[20，32]中通过采用不同的损耗来解决，这些损耗被设计为促进更高的频率以获得感知上更令人愉悦的图像。这些监督目标通常与生成对抗网络[8]（GAN）结合使用，用于HF空间的额外分布学习。基于条件GAN的学习能够生成Plau我们的（仅L1）我们的（WaveletSRNet损失）SRFlowESRGANRankSRGAN我们的（满）LPIPS2361无需严格的地面实况精度即可实现高频率。大量的研究已经致力于设计这样的感知损失，并找到合适的组合，令人愉快的结果。最近，越来越多的基于深度学习的算法在智能手机上实现，这需要低复杂度的网络以用于快速推断和廉价部署。因此，设计的重点正在慢慢地从高质量，高性能的方法与高复杂性的网络转移到更有效的增强器，升级速度更快，需要更少的资源。与通过简单地增加深度神经网络的复杂性来增强其性能（这通常是直截了当的）相比，找到具有高性能的高效网络是一个困难得多的挑战。寻找有效的低复杂度的高性能网络，这是与国家的最先进的方法，是在网络设计的最终挑战。为了最大化深度神经网络的性能和效率，三个主要成分是必要的。首先，必须确定任务的最佳架构设计。通常，此任务由专家手动执行。除了手工设计之外，最近还提出了神经架构搜索算法[7，6，21]来自动执行此任务。第二，最优损失函数的设计对于充分利用网络的性能至关重要第三，数据的数量和质量对于最大化性能起着关键作用。SR的现有文献中有很大一部分涉及第一点。我们认为第三点的解决方案是直接的，因为大多数应用程序都可以有效地收集数据。在本文中，我们提出了第二点的解决方案，并试图最大限度地提高最近提出的高效低复杂度网络[14，35]的性能，仅通过应用我们提出的损失函数来实现感知SR。感知损失的设计主要集中在空间域[32，20]。然而，SR紧密耦合到频域，因为在下采样过程期间仅移除高频。我们杠杆年龄这一事实，并提出新的损失函数在傅立叶空间计算的频率分量与快速傅立叶变换（FFT）的直接强调的频率内容。我们提出了一个监督损失直接参考地面真相直接在傅立叶域重建。此外，我们提出了一种鉴别器架构，用于在对抗训练设置中学习HF分布，直接在傅立叶空间中工作。据我们所知，我们是第一个直接在SR中的傅立叶系数上应用GAN损失的。我们的消融研究表明，对于感知SR任务，与空间损失相比，消融具有明显的益处。此外，由于傅立叶变换的性质，采用傅立叶空间中的损失引入全局引导，而不是逐像素评估。为了撬动-在全局和局部指导下，我们还增加了相应的空间监督和GAN损失。加上额外的感知损失（VGG [30]），这超过了我们消融研究中的所有其他配置。在除了我们提出的损失比现有的优势，我们比较我们的训练有效的发电机与高性能的最先进的方法。它表明，我们的损失可以大大提高性能的低复杂度的发电机，甚至竞争更大的网络工程。2. 相关工作SR是一个热门话题，[31，1，2，35，33，34，23]举办了一系列竞赛，这些竞赛提供了近年来该领域研究和开发的广泛概述。基于恢复学习的方法已经表明高效，因此解决了SR的问题，因此主要用于研究。 SRCNN [4]是第一个基于卷积神经网络（CNN）的方法之一，超越了基于非学习的SR算法，VDSR [17]是一个改进的版本，它采用了更深的网络来提高性能。探索了进一步的概念和改进[20，22，19，10，14]，目的是尽可能接近地面实况重建LR图像中缺失的细节。感知SR由于即使是上述方法中最好的方法也倾向于产生模糊图像，所以另一系列方法[20，32，37]试图通过牺牲恢复质量以增加HF含量[2]的生成来进一步改善感知图像质量。就此而言，SR-GAN [20]提出了生成对抗网络（GAN）[8]的应用作者还提出了基于VGG [30]的特征的感知损失，这显著提高了感知质量。ESRGAN [32]通过采用改进的GAN损耗公式[16]和更强大的生成器架构扩展了这一概念。RankSRGAN [37]是实现改进的感知图像质量的另一种方法它使用一个排序器来实现基于梯度的训练，具有不可微的手工制作的无参考图像质量指标。首先，准备具有图像对及其计算的质量分数的数据集，然后训练排序器以可区分的方式对两个图像进行相对排序。然后将学习的可微分排序器用于基于梯度的对抗训练设置中。最近，SR-Flow [24]使用归一化流[28]用于感知图像SR。该方法明确地在HR空间中对模糊性进行建模，并且通过使用通过设计可逆的网络通过最大似然进行训练基于频率的SR由于SR是恢复频率分量的问题，因此几项工作[12，5，9，15，3]提出将该问题建模为更接近于2362∈∈Y∈Y∈X|F{}|F{}各种配置。WaveletSRNet [12]使用小波通过Haar变换分解LR图像，并直接生成缺失的HF小波系数而不是HR图像。另外，通过由一些启发式加权小波系数来针对感知图像质量优化损失，以便平衡不同子带的重要性。DWSR [9]使用类似的方法，而没有加权方案，并且仅使用四个子带，而没有显式感知分量。[12]中的损失由更多的子带组成，但它不像我们通过应用傅里叶变换所做的那样完全分解图像最近的工作[15]提出了傅立叶空间中的监督损失作为生成任务的额外损失。然而，这项工作使用了不同的损失公式，即.它直接计算复数分量之间的差而不转换成幅度和相位。对抛块[29]。生成器G超分辨LR图像x∈RH×W×C转换为HR图像y=G（x）∈RrH×rW×C。3.2. 傅里叶变换和随机共振傅里叶变换被广泛用于分析信号中的频率成分。它可以应用于诸如图像的多维信号，其中像素强度的空间变化在频域中具有唯一表示离散傅里叶变换（DFT）将图像xRH×W ×C从空间域分解到傅里叶域。傅里叶空间由复正交基函数构成，复频率分量XCU×V×C表征图像。最重要的是，据我们所知，我们是第一个1H−1W−1H W还直接在傅立叶空间中采用GAN损耗。F{x}u，v=Xu，v=√Σ Σxh，we−i2π（uH+vW）3. 该方法HWh=0w=0（一）图像SR的任务是将LR域的图像xRH×W ×C的分辨率提高到HR域的相应图像yRrH×rW ×C，其中因子为r。根据与之相反的是在空间域中的图像中，这些丢失的频率可以在傅立叶域中被清楚地分离。因此，我们提出在频域中的两个损失，以直接强调在相关频率上的训练。另外，由于傅里叶变换的性质，频率分量在训练期间提供全局指导。3.1. 发生器我们的目标是降低计算复杂性的发电机网络更快的运行时间，同时保留代表性的权力SR尽可能高。因此，设计更有效的损失是势在必行的。改进损失设计可以产生更强的梯度信号，其在训练过程期间更好地引导发生器为了测试我们提出的损失的有效性，我们使用了基于同一作者的IMDN网络[14]这是“AIM 2019受限SR挑战赛”的获胜者该网络被用来作为一个高效的发电机架构的例子，以显示-情况下，我们对典型的现有损失的损失设计的权力。该网络由重复的信息多蒸馏块（IMDB）组成，其被设计为有效地将信息从LR空间向HR空间整合。出于效率原因，整个处理在LR空间中进行。仅在最后的处理步骤中，利用标准shuf对经细化的HR图像进行上采样由于图像由多个颜色通道组成，因此我们分别计算每个通道的傅里叶变换。中省略了通道的显式表示法我们的公式。每个复分量Xu，v可以由幅度xu，v和相位xu，v表示，这提供了对频率内容的更直观的分析。|为|Xu，v|=.|=.R{Xu，v}2+I{Xu，v}2（2）F{x}u，v=由于实值信号X的傅立叶空间中的对称性（厄米对称性），我们可以省略冗余频谱分量并且仅处理X的一半，并且仍然保留X中的全部信息。F{x}u，v=F{x}−u，−v（4）因此，当在像图像的实值信号的傅立叶域中工作时，通过忽略冗余分量可以显著减少处理。注意，尽管丢弃了冗余值，但是空间域和傅立叶域中的值的总数保持相同，因为傅立叶空间中的分量由实部和虚部（或振幅和相位）组成由于傅立叶变换假设变换维度中的无限信号，因此应预处理像图像的有限信号以避免边缘引起的伪影。我们通过应用Hann窗来避免这样的伪影，Hann窗抑制信号朝向边缘的幅度，之后，用更准确的频谱表示来变换图像。23631Σ5454LL- -VGGLL·二个 ΣΣ二个 ΣΣΣV千兆克IJCVGGi，j，c（VGG..1空间域傅立叶域图2.所提出方法的概述我们采用在空间和傅立叶域的损失，以加强训练信号。由于SR的任务是从缩小的图像重建丢失的HF内容，因此采样率的降低导致LR空间中的较低奈奎斯特频率nc。其构成了对高于所述频率的高频的表示能力因此，SRI−1J− 1C− 1L=. N（y）i=0j =0c =0-N（y）。处理产生这些缺失频率的问题，这可以看作是从低频到高频的外推。与空间域中的图像的表示相反，这些频率可以在频率空间中被清楚地分离，以便直接强调SR的重要图像特征。另外，傅立叶分量提供关于图像的全局信息，而不是由空间域中的像素值表示的局部信息。我们利用这些属性来设计新的损失，有效的感知SR训练。与傅里叶变换相比，小波变换通过将图像分解成不同的子带来平衡图像中的空间和频率精度。该性质对于其中该折衷是不可避免的许多实际应用是但是，我们并不是被迫要找到一个平衡点。对于在我们的损失中的应用，我们可以利用具有最大精度的频率内容，由信号中的每个频率的一个分量表示，并且通过图像的空间表示获得精确的局部引导3.3. 监管损失根据[32]中的设置，我们使用预先训练的19层VGG网络计算特别地，来自生成器输出y=G（X）的特征N54（X）（54指示在第五池化层之前的第四卷积）与目标y之间的L1损失构成V_GG_loss。除了这些空间域损失之外，我们还提出了一种在训练期间，用于来自地面真实频谱的监督的傅立叶空间损耗F首先，如第3.2节中所描述的，利用汉恩窗口对地面实况y和所生成的图像y进行预处理。然后，通过应用快速傅里叶变换（FFT）将两个图像变换到傅里叶空间中，其中我们计算所有频率分量的振幅 L1-L管道差F，|·|以及输出图像和tar之间的相位差F，（我们考虑了周期性）。得到的值进行平均以产生总频率损耗F。注意，由于所有频率分量的一半是冗余的，所以仅执行u的求和直到U/21（四）、U/2−1V−1对于感知SR，主要是基于空间域的损失、空间特征损失或频带分离LF，|·|= UVu=0v=0. |u，v− |Y|u，v.|u, v.（七）空间域中的策略，例如，小波分离U/2−1V−1分解或滤波，提出[32，5]。大概是因为大多数现有架构都基于卷积，期望输入具有空间不变性，并且LF，=UVu=01v=0 . Y（八）由于易于处理具有卷积的可变图像尺寸理性网络监管损失I.E.参考地面实况，是基于像素的损失L1/L2和基于特征的VGG损失[30，20]。如[32]中所提出的，为了直接比较，我们研究了L1（5）和VGG损失（6）。H−1W−1LF=2LF，|·|+2 LF，（9）在傅立叶域中应用监督损失的理论益处是双重的。(1)直接强调，特别是在缺失的HF分量上，促进了这些重要区域中的生成，而不是空间损失（L1/L2），已知空间损失会产生模糊图像。(2)由于傅里叶变换的性质，其计算LL1 =1HWΣ|yh，w -yh，w |(5)在空间精度的权衡中具有最高精度的频率内容，在h=0w=0i，j，c2364BB.SL.SL+ LF+ LFLL×× ×ρBρBs=1Σs（b），sB=1ΣsB（b）（10）图3.提出了傅立叶GAN架构。我们用一个全连通网络处理y和y的傅里叶分量ρ=D（y）−sφ，φ=D（y）−sρ（11）G1以预测真实的sρ和假的sφ得分。LGAN=−2Ex，y[log（σ（φ））+log（1−σ（ρ））]（十二）D1与空间域中的基于局部像素的损失相比，训练是有效的与文献中提出的其他基于频率的损耗相比，我们直接在傅立叶空间中应用损耗，并且不根据一些启发式调整我们的损耗，如[12]中所述。3.3.1GAN损失LGAN=−2Ex，y[log（σ（ρ））+log（1−σ（φ））]3.4. 训练设置完整的训练设置（13）由空间域和傅立叶域中的两个监督损失和两个GAN损失以及附加的VGG损失组成这些损失分量用因子α、β、γ加权，并使用Adam [18]优化器交替步骤最小为了进一步提高感知质量，我们采用了具有两种类型的GAN架构的GAN训练方案直接从地面实况学习从LR到HR的映射严重限制了具有高感知质量的图像的生成最大限度地降低单一实现的风险最小αG最小αDG，GAND，GANG，GAN2D，GAN2Σ+βΣ. LL1+LFΣ2+γLVGG（十三）因为问题是不适定的，所以用地面真值来表示太严格了。GAN训练策略通过允许类似于来自目标分布的图像的合理HR重建来放松损失公式。我们使用 [32] 中的鉴别器来进行空间 GAN 损失SGAN。此外，我们还设计了一个直接在傅里叶域工作的鉴别器，以解决我们提出的频域GAN损失F甘。在将图像变换到傅立叶空间之后，空间不变性假设不再有效。因此，卷积架构的应用对于该任务将不是最佳的。因此，我们在傅立叶空间中应用全连接鉴别器网络用于对抗性引导，参见图1B。3.第三章。再次，在应用汉恩窗之后，将生成的图像y和地面实况y变换成由傅立叶空间中的振幅和相位表示的频率两种对抗性损失均通过相对论GAN公式[16]进行评估，其显示SR性能优于[32]中的标准GAN公式。鉴别器（10），并将它们从原始logits中减去，Eq. （十一）、然后在（12）中用S形交叉熵GAN目标来评估变换后的真实和虚假分数ρ、φ4. 实验和结果所有设置1都是在具有缩放因子r=4的DF2K数据集上训练的。DF2K是DIV2K [1]和Flickr2K [31]的组合。训练对由大小为64、64和256的成对作物组成LR和HR分别为256例。我们评估所有实验的DIV2K验证集，HR图像SR的标准基准此外，我们还提供了Urban100的结果[13]。更多评价请参考补充资料。我们计算恢复度量PSNR和SSIM（均在YCbCr颜色空间中的Y上）、感知度量LPIPS [36]和FID [11，27]的分布相似性。我们有意避免使用无参考度量，因为我们想要从目标域学习图像质量，这与学习无参考度量不同，因为这些手工制作的度量不一定与目标图像分布的属性相关。4.1. 消融我们使用不同的损耗配置进行消融研究1.一、生成器在所有配置中使用预训练权重（L2）初始化并训练1我们在https://github.com/dariofuoli/FourierSpaceLosses提供代码。1 2 3 45变平FC/1024FC/1024FC/1024FC/1024FCφφ2365LLL配置生成器LL1LFLSGANLFGANLVGG↑PSNR↑SSIM↓LPIPS↓FID1 IMDN [14]CC30.32 0.8340.26627.94 0.751 0.131C C C29.06 0.796 0.129 17.17表1.消融研究结果。我们比较不同的配置的损失函数。我们通过FID [11]计算恢复度量PSNR和SSIM、感知度量LPIPS [36在DIV2K验证集上计算度量。在DF2K上进行500k次迭代，具有恒定的学习率l= 10−5和批量大小B=16。由于不同损失类型的异构组合，出于稳定性原因和公平性，我们不使用学习率调度器训练参数设置为α=0。005，β=0。01和γ=1，如现有技术方法ESR-GAN [32]中所提出的。每当每个参数α或β采用单个损耗时，去除（13）中因子2的平均，以在所有配置中保持监督和GAN损耗之间的平衡。此外，我们在 B=8的相同设置中使用我们的额外损失来改进ESRGAN的预训练生成器。配置1和2之间的比较清楚地示出了我们提出的傅立叶域超视损耗F对于感知质量增强的有效性用我们提出的公式计算损失显著改善了感知图像质量，与恢复质量[2]进行权衡，这反映在LPIPS（-0.081）和FID（-5.93）的大幅改善上。配置4表示来自ES-RGAN[32]的损耗公式，这些空间损耗被我们提出的傅里叶域损耗交换F和FGAN在配置5中。感知质量在两种配置之间保持相当。然而，与ESRGAN损失相比，恢复质量显著更高，这由PSNR和SSIM的增益反映出来。+1.12dB和+0.045，这表明我们提出的傅立叶域损耗优于ESRGAN中采用的相应空间损耗配置8示出了我们提出的傅立叶域损耗与空间损耗的组合的有效性它实现了所有配置的最佳LPIPS和FID分数，并且在所有指标中明显优于配置4中ESRGAN的损失。在空间域和频域中同时应用损失利用来自每个图像表示的互补信息，以显著改善训练期间的总体指导。配置-比率9示出了ESRGAN发生器与我们提出的傅立叶域和空间损耗的完全组合的组合我们注意到改进（PSNR+0.44dB，FID-0.57），这是由我们在配置10中的原始ESRGAN上的傅里叶域损失带来的。4.2. 与最新技术水平的除了在消融研究中我们的损失对感知性能的有效性之外，我们还表明，由于我们的损失更好，我们还可以使用更有效的发生器网络与最先进的方法竞争。我们将损失权重调整到更高的感知质量，以权衡恢复质量，并将其设置为α=0。0025，β=0。005，对于表1中的模型，γ=1。3和Tab。二、注意，我们的损失的提议是展示改进的训练性能，其使得能够训练高性能低复杂度生成器，而不一定实现最先进的性能。尽管在我们的设置G的复杂性低，我们能够与国家的最先进的方法的图像质量的竞争，大大减少了运行时间。ESRGAN使用L1、VGG和GAN损耗的组合，并提出了一种改进的发电机架构，该架构源自SRGAN[20]。RankSRGAN[37]介绍了一种使用不可微的手工图像质量度量（Ma [25]，NIQE [26]和PI [2]）在基于GAN的设置中进行训练的方法。RankSR-GAN中的生成器网络是SRGAN [20]。SRFlow[24]是最近提出的方法，其使用归一化流[28]用于感知图像SR。规范化流的概念通过将不适定问题明确建模为随机过程来提供基于GAN的学习的替代方案我们还比较了我们的损失制定最近提出的损失使用的小波变换，见二。3.2.WaveletSR-Net[12]和DWSR [9]使用小波变换划分子带，两者都使用Haar变换。我们将我们的方法与Wavelet中的损失进行30.560.8370.27022.91C29.530.8110.18916.982IMDN [14]3IMDN [14]C4IMDN [14]C5IMDN [14]6IMDN [14]CC27.96 0.7620.127 16.947IMDN [14]C29.13 0.7940.12717.908IMDN [14]CCCCC28.420.7760.12415.889ESRGAN [32]CCCCC28.630.7800.11314.8010ESRGAN [32]CCC28.190.7690.11515.372366×个×个L×个×个SRNet使用比DWSR更精细的划分和更复杂的损失公式为此目的，我们在WaveletSRNet中训练高效的发电机骨干G，以进行直接比较。对于所有其他方法，我们使用预训练模型pro-方法↑PSNR ↑SSIM ↓LPIPS ↓FIDESRGAN（我们的损失）[32]25.05 0.738 0.120 24.07ESRGAN [32] 24.36 0.7170.123 25.50RankSRGAN（NIQE）[37] 24.52 0.715 0.143 27.47我们的（满）24.69 0.7230.132 26.70由作者提供，因为他们都是在DF2K上训练此外，我们提供了标准双三次上采样的结果为了量化模型的复杂性和效率，我们在NVIDIA TITAN RTX和Intel i7 CPU（6核）上计算推理时的参数和运行时间我们还在图中提供了可视化示例。4支持我们的定量评价。4.2.1讨论我们的损失相比ESRGAN的损失的优越性已经在表中的消融研究中显示。1.一、最重要的是，我们甚至可以与ESRGAN的高复杂度生成器竞争我们的损失显着超过所有三个RankSRGAN模型在两个恢复指标PSNR/SSIM，甚至达到最高的FID分数。只有NIQE和PI优化模型具有略高的LPIPS分数，但是其具有2。4GPU上更高的运行时间。注意，这是复杂性上的实质性差异，例如这相当于将网络中的层的数量减少了2倍。4.第一章在比较排名的方法，我们的损失制定不依赖于一个有意义的手工制作的质量指标，这表明了一个上限上可实现的质量的困难设计我们也不需要昂贵的设置的排名，我们实现了更强的指导，直接强调的频率内容，没有额外的明确概念的感知质量。SRFlow [24]是最昂贵的方法，具有大量的参数，并且在GPU和CPU上的推理速度分别为1.995s和55.33s，但是除了PSNR和SSIM之外，没有我们的高效方法与SRFlow具有可比的感知指标。我们的解决方案具有更好的FID分数（+0.41），但LPIPS分数略然而，在推理速度上存在巨大的差异，例如。SRFlow在GPU上比我们的方法慢48倍，这突出了我们提出的损失的优越性。我们从头开始用WaveletSRNet的损失训练G，学习率为l = 10 − 5，迭代次数为500k，批量大小为B =16。此外，我们以l=10−6的较低学习率微调G，再进行250k次迭代。我们大大优于WaveletSRNet的损失公式与我们提出的损失方面的PSNR和感知表2.Urban100的评价红色表示最好，蓝色表示第二好。度量LPIPS和FID。从我们的消融研究中，我们提出的傅立叶空间 F中的监督损失已经在三个度量中超过WaveletSRNet，LPIPS除外1.一、我们在Tab中评估了Urban100的损失[13]。2来展示我们的方法的泛化能力。我们的efficient设置在此数据集上也实现了相当的性能将我们的损失应用于ESRGAN再次导致所有4个指标的明显改善，特别是在恢复指标中。5. 结论我们提出了两个傅立叶域损失-监督和GAN损失-以加强感知图像SR任务的训练信号。我们的消融研究表明，除了在空间域的损失，在训练过程中提供的补充信息。由于改进的指导，有可能训练一个明显更低的复杂性-生成器主干的运行时间可以缩短到仅41 ms，比ESR-GAN快13以上，比GPU上的SRFlow快48。将图像分离为LF和HF内容，因此直接强调傅立叶空间中丢失的高频，这是由我们的损失造成的，有助于SR网络生成合理的HF内容。同时，我们还应用相应的空间损失来利用互补的局部信息，这导致甚至更好的感知质量。据我们所知，我们是第一个成功地将基于GAN的损失直接应用于SR的傅立叶分量我们相信，对傅立叶空间GAN网络的架构改进进行更多的研究鸣谢。这项工作得到了华为技术有限公司的部分支持。 Ltd项目和ETHZürich基金（OK）。2367方法↑PSNR↑SSIM↓LPIPS↓FID↓Par[M]↓GPU[s]↓CPU[s]双三28.110.7820.41044.79---SRFlow [24]28.680.7730.12016.1339.5421.99555.33ESRGAN [32]28.190.7690.11515.3716.6980.55329.28美国（公告牌百强单曲榜）[37]27.300.7420.14118.401.5540.0993.97美国（公告牌百强单曲榜）[37]28.190.7650.11915.891.5540.0993.97[37]第37话28.110.7650.12116.281.5540.0993.97我们的（WaveletSRNet损失[12]）27.970.7860.17119.800.8940.0411.72我们的（仅L1）30.560.8370.27022.910.8940.0411.72我们的（满）28.280.7700.12115.720.8940.0411.72表3.与最先进方法的比较。我们比较的图像质量分数（PSNR，SSIM，LPIPS和FID）和效率的措施（参数和运行时间）。红色表示最好，蓝色表示第二好。目标SRFlow RankSRGAN（NIQE）ESRGAN我们的（完整）图4.来自DIV2K验证图像的可视示例2368引用[1] Eirikur Agustsson和Radu Timofte。Ntire 2017挑战单幅图像超分辨率：数据集和研究。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2017年7月。二、五[2] Yochai Blau 、 Roey Mechrez 、 Radu Timofte 、 TomerMichaeli和Lihi Zelnik-Manor。2018年pirm感知图像超分辨率挑战赛。在欧洲计算机视觉会议（ECCV）研讨会中，2018年9月。二、六[3] Xin Deng，Ren Yang，Mai Xu，and Pier Luigi Dragotti.小波域风格转移的一个有效的感知失真权衡单图像超分辨率。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。二个[4] C.东角，澳-地C. Loy，K.他，还有X。唐使用深度卷积网络实现图像超分辨率。IEEE Transactions on PatternAnalysis and Machine Intelligence，38（2）：295-307，2016年2月。一、二[5] M. Fritsche，S. Gu和R. Timofte用于现实世界超分辨率的频率分离。在2019年IEEE/CVF国际计算机视觉研讨会（ICCVW）上，第3599-3608页，2019年。二、四[6] Yonggan Fu ， Wuyang Chen ， Haotao Wang ， HaoranLi，Yingyan Lin，and Zhangyang Wang. AutoGAN蒸馏器：搜索压缩生成对抗网络。在Hal Daume III和AartiSingh编辑的第37届国际机器学习会议论文集，机器学习研究论文集第119卷，第3292-3303页。PMLR，2020年7月13日至18日。二个[7] Xinyu Gong，Shiyu Chang，Yifan Jiang，and ZhangyangWang. Autogan：生成对抗网络的神经架构搜索。在IEEE/CVF国际计算机视觉会议（ICCV）的会议中，2019年10月。二个[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展27，第2672- 2680页。2014. 一、二[9] Tiantong Guo，Hojjat Seyed Mousavi，Tiep Huu Vu，and Vishal Monga.用于图像超分辨率的深度小波预测。在IEEE计算机视觉和模式识别（CVPR）研讨会会议中，2017年7月。二、三、六[10] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于超分辨率的深反投影网络。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。一、二[11] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在重症盖永诉卢克斯堡 S 。 Bengio ， H. 瓦拉赫河 Fergus ， S.Vishwanathan和R. Garnett，编辑，神经信息处理系统进展，第 30卷，第 6626-6637 页 Curran Associates ， Inc.2017. 五、六[12] Huaibo Huang，Ran He，Zhenan Sun，and Tieniu Tan.Wavelet-srnet：一种基于小波的多尺度人脸超分辨神经网络。在 IEEE International Conference on ComputerVision，第1689-1697页，2017年。二三五六八[13] Jia-Bin Huang，Abhishek Singh，and Narendra Ahuja.单图像超分辨率从变换的自我范例。IEEE计算机视觉和模式识别会议论文集，第5197-5206页，2015年五、七[14] Zheng Hui ， Xinbo Gao ， Yunchu Yang ， and XiumeiWang.轻量级图像超分辨率与信息多蒸馏网络。第27届ACM国际多媒体会议（ACM MM）论文集，第2024-2032页，2019年。一、二、三、六[15] Liming Jiang，Bo Dai，Wayne Wu和Chen Change Loy。生成模型的焦点频率损失。 arXiv 预印本 arXiv ：2012.12821，2020。二、三[16] 阿莱克西亚·乔利库-马蒂诺。相对论鉴别器：标准GAN中缺少的关键元素。arXiv预印本arXiv：1807.00734，2018. 二、五[17] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。一、二[18] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。五个[19] 赖伟胜，黄家斌，纳伦德拉·阿胡贾，杨明轩。深拉普拉斯金字塔网络实现快速和精确的超分辨率。在IEEE计算机视觉和模式识别会议上，2017年7月。一、二[20] Christian Ledig 、 Lucas Theis 、 Ferenc Huszar 、 JoseCaballero 、 Andrew Cunningham 、 Alejandro Acosta 、Andrew Aitken、Alykhan Tejani、Johannes Totz、ZehanWang和Wenzhe Shi。使用生成对抗网络的照片逼真的单图像超分辨率。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。一、二、四、六[21] Royson Lee，Łukasz Dudziak，Mohamed Abdelfattah，Stylianos I. Venieris ， Hyeji Kim ， Hongkai Wen 和Nicholas D.巷迈向微小感知超分辨率之旅。欧洲计算机视觉会议（ECCV），2020年。二个[22] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.单图像超分辨率的增强深度残差网络。在IEEE计算机视觉和模式识别研讨会论文集，第136-144页一、二[23] Andreas Lugmayr，Martin Danelljan，and Radu Timofte.Ntire 2020挑战真实世界图像超分辨率：方法和结果。IEEE/CVF计算机视觉与模式识别会议（CVPR）工作坊，2020年6月。二个[24] Andreas Lugmayr，Martin Danelljan，Luc Van Gool，and Radu Timofte. Srflow：使用归一化流学习超分辨率空间。在ECCV，2020年。二、六、七、八[25] 马超，杨致远，杨小康，杨明轩。学习无参考质量度量2369单像超分辨率计算机视觉和图像理解，第1-16页，2017年。六个[26] A.米塔尔河Soundararajan和A. C.波维克制作IEEE信号处理快报，20（3）：209-212，2013。六个[27] Anton Obukhov ， Maximilian Seitzer ， Po-Wei Wu ，Semen Zhydenko，Jonathan Kyl，and Elvis Yu-Jing Lin.py- torch中生成模型的高保真性能指标，2020。版本：0.2.0，DOI：10.5281/zenodo.3786540。5[28] 达尼洛·雷曾德和沙基尔·穆罕默德。具有正规化流的变分在Francis Bach和David Blei编辑的Proceedings of the32 nd International Conference on Machine Learning ，Proceedings of Machine Learning Research 第37 卷，第1530-1538页PMLR。二、六[29] WenzheShi，JoseCaballero，FerencHusza´r，JohannesTotz ， Andrew P Aitken ， Rob Bishop ， DanielRueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在CVPR，2016年。三个[30] Karen S

下载后可阅读完整内容，剩余1页未读，立即下载