基于小波域风格转换的超分辨率感知-失真折衷方法

186 浏览量更新于2023-10-12 收藏 3.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3076基于小波域风格转换的单幅图像超分辨率感知-失真折衷方法伦敦帝国理工学院imperial.ac.uk任阳苏黎世联邦理工学院reyang@ee.ethz.ch伦敦帝国理工学院北京航空航天大学maixu@buaa.edu.cnp.dragotti@imperial.ac.uk摘要在单图像超分辨率（ SISR ）中，给定低分辨率（LR）图像，人们希望找到它的高分辨率（HR）版本，该版本既准确又逼真。最近，已经表明在低失真和高感知质量之间存在基本的权衡[3]，并且生成对抗网络（GAN）被证明可以有效地接近感知失真（PD）界限。在本文中，我们提出了一种新的方法基于小波域风格转移（WDST），它实现了更好的PD权衡比基于GAN的方法。具体来说，我们建议使用2D平稳小波变换（SWT）将一幅图像分解为低频和高频子带。对于低频子带，我们通过增强网络来提高其客观质量。对于高频子带，我们建议使用WDST来有效地改善其感知质量。利用小波的完美重构特性，可以将这些子带重新组合，得到同时具有高客观和感性质量的图像。各种数据集上的数值结果表明，我们的方法实现了最好的折衷之间的失真和感知质量的ex-absolutely国家的最先进的SISR方法。1. 介绍单图像超分辨率（SISR）是指从低分辨率（LR）图像恢复高分辨率（HR）图像。在这种情况下，一些方法专注于通过最小化恢复图像和地面实况图像之间的均方误差（MSE）来提高客观图像质量[6，22，12，13，15，30，31]。其他方法旨在通过使用对抗训练最小化感知损失来提高感知图像质量[14，21，19]。客观质量可以实现低失真但感知质量差，而另一类可以生成照片般逼真的图像，但具有大的MSE失真。我们希望获得一个超分辨率的图像，这是既准确和照片逼真。然而，如[3]中所指出的，在实现低MSE和高感知质量的能力之间存在折衷。实现这种权衡的一种自然方法是训练生成对抗网络（GAN）以最小化组合MSE和对抗损失，这已经被SRGAN-MSE [14]和ENet [21]尝试过。然而，训练过程是非常不稳定的。一方面，对抗性损失鼓励在结果中合成高频细节[21]。另一方面，由于这些高频细节不在正确的位置，因此MSE失真增加。这种不稳定的训练可能会导致恢复图像中的许多不期望的伪影，如图所示。1.为了避免这一点，ESRGAN [27]，这是Pencil挑战的赢家[2]，提出分别用低MSE和高感知质量目标来训练两个单独的网络。然后对这两个网络进行插值，以在客观和虚拟质量上实现折衷。然而，网络插值要求两个网络具有完全相同的架构，这极大地限制了它们的性能。该融合方法不受网络结构的约束，具有较好的适应性，可以代替传统的网络插值。图像融合就是在给定一幅图像具有高的客观质量和另一幅图像具有高的感知质量的情况下，将这两幅图像进行融合，得到一幅同时具有高的客观质量和感知质量的图像。最近，Deng [5]提出使用图像风格转移将两个图像组合。然而，由于风格转移是在像素域中执行的，因此很难保留结构和纹理信息。如图1、墙体结构受到严重影响。邓[5]的另一个缺点是，它试图操作-3077图1.不同SISR方法的感知失真性能蓝色的点表示目标为客观质量的方法，绿色的点表示目标为感知质量的方法，橙色的点表示目标为感知和失真之间的折衷的方法较高的PSNR值表示较好的客观质量，较高的感知得分表示较好的感知质量。左下角是最好的我们的方法实现了所有“橙色”方法中的最佳折衷将客观性和感性性作为一个整体来评价，但客观性和感性性是由图像中的不同元素所决定的。当它们作为一个整体进行优化时，客观质量的提高可能导致感知质量的下降，反之亦然。为了达到最佳的折衷，我们应该将影响客观质量的因素与影响感知质量的因素分开，并分别优化它们。在本文中，我们建议使用小波变换来实现这种分离，因为小波可以将图像分成一个低频和几个高频子带。我们发现，低频子带在客观质量中起着重要的作用，而高频子带可以显著地影响感知质量。分离后，采用增强网络提高低频子带的客观质量，采用小波域风格转移提高高频子带的感知质量，以达到最佳折衷。请注意，在本文中，我们的目标不是一个新的SISR方法对高感知或客观的图像质量，这已被广泛探讨最近。相反，我们提出了一种新的图像融合方法，它结合两幅图像，以实现最佳的折衷之间的分辨率和失真，如图所示。1.我们的方法克服了现有方法的许多缺点.例如，与SRGAN-MSE [14]相比，我们不需要训练深度网络，因此我们不担心训练的稳定性。与ESRGAN [27]相比，我们对网络架构的选择更加灵活，这使我们能够更自由地实现最佳PD权衡。与Deng [5]相比，我们将影响客观质量的因素与影响感知质量的因素分开，并采用新的技术在小波域中进行风格转换。所有这些都有助于更高的重建性能和更好的PD权衡。本工作的主要贡献如下：• 我们显示的关系之间对象-视觉/感知图像质量和小波子带之间的关系，这为进一步提高PD性能奠定了重要基础。通过小波分离，可以分别增强客观和感知质量，而对另一个影响很小，这导致了更好的PD折衷。• 我们提出了一个小波域风格转移（WDST）算法与新定义的损失函数，以实现在失真和失真之间的有效折衷。据我们所知，我们是第一个在小波域中应用风格转移，以在SISR中实现良好的PD折衷。• 我们在各种数据集上测试了我们的方法的性能。与其他最先进的方法相比，我们的方法实现了一个更好的折衷之间的客观和感性的品质。2. 相关工作客观质量的SISR方法。为了提高重建图像的客观质量，大多数方法都试图使重建图像与地面实况之间的MSE损失最小化。传统方法依赖于字典学习来学习从LR补丁到HR补丁的映射[28，29，25]。最先进的方法训练了一个专门设计的深度神经网络，以最大限度地减少LR和HR图像之间的MSE损失[6，12，22，15，8，31，30]。这种方法可以生成高客观质量的HR图像。然而，由于缺乏高频细节，这些图像通常具有模糊的边缘，视觉上令人不愉快，特别是对于大的放大因子。感知质量的SISR方法。由于MSE损失无法衡量两幅图像之间的感知相似性，Lediget.al [14]提出将感知损失最小化，该损失被定义为VGG损失和对抗损失的加权和。VGG损失很好地表示了两幅图像之间的感知相似性，25.39分25.81分26.68分SRCNNVDSR SRResNet25.38 dB 24.16 dB23.45 dBSRGAN-vgg5425.55分eNetCX26.03分27.12分SRGAN-MSE邓我们45EDSR6RCAN789欧盟特别我们MSEDengPESRvgg2，2VGG5,4CXeNet28.0二十七点五 27.026.526.025.525.0 24.5（PSNR/dB）失真--SRGANN-SRGANvgg2，2AN SRGAESRGt-SRResNe-MSEVDSRSRResNetA+自我介绍SRCNNESPCN（NRQM）感知3078i=1i=1i=1对抗性损失可以使恢复的图像看起来逼真。后来，Saggadiet.al [21]提出将纹理匹配损失添加到VGG损失和对抗损失中，这在重建具有高感知质量的图像方面取得了良好的效果。最近，Mechrezet.al [19]提出了上下文损失，以使恢复图像的内部统计数据与地面实况相似，从而产生更逼真的图像。SISR方法的客观和感知质量之间的权衡。[14]和[21]都试图同时优化客观和感性质量。具体来说，在[14]中，提出了SRGAN-MSE方法，以最小化MSE和对抗损失的组合损失。在[21]中，另一个纹理匹配损失被添加到MSE和对抗损失中，以使训练过程更加稳定。然而，他们的结果仍然受到阻塞和噪声的影响。Choiet.al [4]用一个神经网络和两个定性分数预测器训练了一个多尺度超分辨率模型，在保持客观质量的同时实现了高感知质量。最近，ESRGAN [27]提出训练两个网络，分别旨在提高客观和感知质量，然后将这两个网络内插以实现客观和感知质量之间的权衡。与我们最相关的工作是[5]，它也使用风格转移来组合两个图像。然而，在[5]中，风格转移算法在像素域中执行，并且它没有将客观和感知质量相关元素彼此分离的技术。因此，客观和感知质量整体上得到优化，这显著降低了感知失真性能。3. 该方法平稳小波变换小波变换允许图像的多分辨率分析[10]。经典的离散小波变换（DWT）有一个缺点，即，它不是平移不变。平稳小波变换（SWT），也称为非抽取小波变换，通过去除DWT中的下采样操作克服了这一缺点[24]。图2示出了用于2级分解的2D SWT过程。假设H0和G0是标准1D小波分解的低通和高通滤波器，我们可以通过以下公式获得第i级的LL、LH、HL和HH子带的z列行LL2列列LH2行列HL2列行LH1列X（zx，HH2列行HL-1行列HH1与F（z）沿着入口的列与F（z）卷积条目的列HO（zy）GO（zy）GO（zx）F（z）F（z）HO（zy）GO（z2）yGO（zy）GO（z2）XHO（z2）yHO（zx）GO（z2）yHO（z2）XHO（z2）y1级2图2.图像X的两级2D平稳小波变换（SWT）的图示，其中H0和G0分别作为低通和高通滤波器其中LLi-1是第（i-1）级的LL子带，LL0作为输入图像X。后第N层分解，我们得到与输入图像大小相同的（3N +1）个小波子带，即，LLN，{LHi}N，{HL i}N ，{HH i}N ，其中LLNcon-将低频信息保持在第N级，LHi，HLi和HHi分别包含第i层的水平、垂直和动机2D SWT可以分解图像分成多个子带，包括一个低频子带和多个高频子带。我们在这里的关键见解是，低频子带对图像的客观质量，而高频子带显著影响感知质量。为了验证这一点，我们考虑两个超分辨率图像：A p具有高感知质量但低客观质量，A o具有高客观质量但低感知质量。图3显示了这两个图像，以及SWT后它们的子带的直方图。这里，Ap和Ao分别使用现有的SISR方法CX[19]和EDSR [15]获得。我们使用峰值信噪比（PSNR）来测量客观质量，使用NRQM [16]来测量[19]之后的感知质量。请注意，较大的PSNR和NRQM值分别表示较好的客观和感知质量。如图3、高频子带（即，LH，HL，HH）的直方图分布与地面实况非常相似，但对Ao则不然。由于高频子带包含细节信息，这可以解释为什么Ap具有高感知质量。对于LL子带，Ao具有比Ap更类似于地面实况的直方图，这是Ao具有高客观质量的原因之一。LL（z， z）=H（z2i−1）H（z2i−1）LL（z，z），（1）为了进一步验证我们的观察，一个简单的子-我Xy0y0Xi−1Xy替代实验如下进行我们更换LH（z， z）=G（z2i−1）H（z2i−1）LL（z，z），（2）我Xy0y0Xi−1Xy将Ap的低频子带与Ao的低频子带进行比较，HL（z， z）=H（z2i−1）G（z2i−1）LL（z，z），（3）所有的高频子带这些子带是COM-我Xy0y0Xi−1Xy通过2D逆SWT（ISWT）合并以获得重建HH（z， z）=G（z2i−1）G（z2i−1）LL（z，z），（4）图像A 换掉低频子波我Xy0y0Xi−1Xy p3079WDSTPSNR=21.30dBNRQM=8.9101PSNR=23.14dBNRQM=5.5951图3. 第一行示出了具有高感知质量但低客观质量的A p的不同子带的直方图。第二行示出了具有高客观质量但低感知质量的Ao的不同子带的直方图。第三行显示地面实况直方图。LHp LH r LH oAR（一）Relu1-1Relu2-1Relu3-1Relu4-1Relu5-11212123412341234VGG19网络（b）第（1）款Conv 2 -2含量损失（c）第（1）款图4.（a）显示了我们的方法的框架，（b）说明了小波域风格转移（WDST）算法，（c）显示了低频子带增强（LSE）网络。将A o的频带与A p的频带进行比较，以获得重建图像Apo 。表1显示了BSD100数据集上的PSNR和NRQM结果。可以看出，A/P的PSNR提高了在Ap上超过1dB，而NRQM评分没有太大变化。可以观察到在A和A之间。对象质量的原因受到显著影响的是低频子带改变。相比之下，感知质量并没有特别地受到影响，因为我们保留了高频子带。因此，为了获得具有良好PD折衷的图像，一种可能的解决方案是追求其低频子带的高客观质量和其高频子带的高视觉质量。图4（a）显示了我们方法的框架给定LLpLHpHLpHHpLLgt左涡轮增压器LLoHLgtHHgtLHoHLoHHoHHp风格HHo内容HLp风格HLo内容SWTLHp风格SWTWDSTLHr内容LLpLLoApAoISWTHLrWDSTHHrLSELHoWDST图像AoInputLLoConv1ReLUConv2ReLUConv3ReLUConv4ReLUConv5ReLUConv6剩余输出LLrLSE图片AP地面实况风格损失3080表1.BSD 100数据集上的PSNR和NRQM评分方法一个p一个AO阿巴佐PSNR24.5825.6827.8026.57NRQM8.80078.77755.71595.8864一幅图像Ap具有高的感知质量，另一幅图像Ao具有高的客观质量，我们首先对这两幅图像进行2D SWT，使得每幅图像分解为一个低频和多个高频，子带以一级分解为例，Ap分解为{LLp，LHp，HLp，HHp}，Ao分解为{LLo，LHo，HLo，HHo}.对于LLo，我们使用LSE网络来提高其客观质量。对于高频子带对，例如，LHp和LHo，我们使用WDST将它们融合到一个新的子带。最后，3081Lr o r pr表2. 4倍放大的基准比较，最好的结果用粗体表示，第二好的用下划线表示。Set5双三EDSR[15] CX[19]SRGAN-MSE[14] G-MGBP[20] [26]第二十六话 [27]第27话我们PSNR28.4232.6329.1030.66 30.87 30.76 31.1431.46SSIM0.82450.91170.85232017年12月31日0.8929NRQM3.76245.21067.95667.1344 7.0022 7.07247.5180产品14双三 [19]第十九话：SRGAN-MSE[14] G-MGBP[20] [26]第二十六话 [27]第27话我们PSNR26.1028.9526.0127.01 27.56 27.5727.77 27.5328.07SSIM0.78500.85830.78392019 - 06 - 22 00：00：000.8356NRQM3.65985.37887.94237.87707.5042 7.5301 7.5575 7.59367.6827BSD100双三 [19]第十九话：SRGAN-MSE[14] G-MGBP[20] [26]第二十六话 [27]第27话我们PSNR25.9627.8024.5825.9826.59 26.33 26.4626.82SSIM0.66750.74320.64322009年12月31日0.7058NRQM3.72075.71598.80078.4276 8.1790 8.32988.4452 8.30348.5948Urban100 双三 [19]第十九话：SRGAN-MSE[14] G-MGBP[20] [26]第二十六话 [27]第27话我们PSNR23.1426.8624.00-25.15 25.88 25.9626.0826.26SSIM0.90110.96790.9313-0.9495 0.96100.96200.9649NRQM3.44125.33656.7982-6.2190 6.31906.4317 6.17626.4556PIRM双三 [19]第十九话：SRGAN-MSE[14] G-MGBP[20] [26]第二十六话 [27]第27话我们PSNR26.5128.7225.41-27.17 27.1127.48 26.6627.63SSIM0.82320.89300.8177- ---0.8524 0.86490.8728 0.85290.8755NRQM3.83765.71168.5746-8.0556 8.2172 8.16658.3692所有融合子带和增强的LL0通过ISWT合成以获得图像Ar。低频子带增强（LSE）。对于低频子带LLo，我们的目标是进一步提高其客观质量。在这里，我们采用VDSR [12]的基本网络结构来实现这一目标，如图所示在图4（c）中。该网络由6个卷积层组成，每层后都有一个线性单元（Relu）。对于每一层，过滤器大小为3×3，过滤器数量为64. 网络的输入是低频子带LLo来自图像Ao，目标是LLgt来自地面实况图像Agt.为了加快训练过程，我们还使用了残差学习策略，该策略学习目标LLgt和输入LLo之间的差异。训练目标是最小化预测输出LLr和地面实况LLgt之间的N2范数：ΣNL=LLgt（i）−LLr（i）2，（5）i=1使用WDST来选择输出子带LHr。与传统的以像素值为输入的风格转换算法不同，我们使用小波系数作为WDST的输入。由于小波系数可以为负或大于1，因此需要预处理步骤将它们在0和1之间归一化。在归一化之后，对于每个高频子带对，WDST算法通过最小化结合内容损失Lc、风格损失Ls[7]和1范数损失的损失函数来执行。为了保持小波系数的稀疏性，专门增加了n1LH子带的总损失函数定义为：LLH=αLc（LH，LH）+βLs（LH，LH）+γLHβ1，（6）其中，α、β和γ分别是内容、风格和101内容丢失被定义为内容输入的特征映射与在预训练VGG网络的特定层L处生成的输出之间的MSE [23]：1Σr o L rLo2其中，LLr是LLo和学习的残差图之和小波域风格转换（WDST）。对于高-Lc（LH，LH）=2NMi、j（F ij（LH）− F ij（LH））。（七）频率子带，我们提出了一个小波域风格转移（WDST）算法，以提高其感知质量。以子带对LH p和LH o为例，如图所示。3. LH p的小波系数比LH o丰富，即，LHp比LHo包含更多的非零小波系数。我们希望将LHp中的详细小波系数转移到LHo中，以便LHo可以具有更高的感知质量。因此，我们把LHp作为风格输入，把LHo作为内容输入，在这里，FL（LHr）和FL（LHo）是分别以LHr和LHo作为输入的预训练VGG网络[23]的L层的此外，NL是数字，层L处的特征图的BER，并且ML是特征图的宽度和高度的乘积。与在LHo和LHr之间计算内容损失不同，在风格输入LHp和LHr之间计算风格损失。此外，与单层计算的内容损失不同，总风格损失由以下各项的加权和定义：L3082SS28.07dB/3.350726.46/6.701424.14dB/6.8868(a) GT（b）EDSR（内容）（c）CX（风格）（d）我们的图5.第一行显示了使用EDSR，CX和我们的方法恢复的Set 14中的斑马图像，红色值表示PSNR/NRQM值。第二行显示了第一行图像的HL子带以及直方图。不同层次的风格损失：ΣLs（LHr，LHp）=wlLl（LHr，LHp），（8）L其中wl是第l层的风格损失的权重Ll（LHr，LHp）被计算为分别以LHr和LHp作为输入的预先训练的VGG网络中的第l层处的特征图的Gram矩阵之间的MSE在数学上，它被定义为：l rp1升rLp2L s（LH，LH）= 4N 2M 2 （G ij（LH）−G ij（LH ））的情况下，LlIJ（九）图6.EDSR和CX的感知失真（PD）曲线其中Gl（LHr）和Gl（LHp）分别是LHr和LHp在第l层的Gram矩阵。我们有Gl（LHr）=Fl（LHr）TFl（LHr）和Gl（LHp）=Fl（LHp）TFl（LHp）。VGG网络[23]用于计算内容损失，层Relu 1 -1，用Relu 2 -1、Relu 3 -1、Relu 4 -1和Relu 5 -1计算花柱损失。在定义所有损失的情况下，遵循[7]，我们使用L-BFGS算法[32]以梯度体面的方式获得（6）中的LHr。同样，我们可以得到HLr和HHr.在获得高频子带LHr之后， HLr和HHr，我们需要对它们进行反归一化。然后，我们可以通过使用合成低通滤波器H1和高通滤波器G1对这些高频子带以及低频子带LLr执行2D ISWT来重构图像Ar。在这里，对于完美重构，H1和G1是与分析滤波器H0和G0用于分解[17]。4. 数值结果实验装置。对于2D SWT，我们使用bior2。2作为默认小波滤波器。小波分解级别的数量为2，这意味着我们有六个高频子带和一个低频子带（参见RCAN和CX、SRResNet-MSE和SRGAN-vgg 54。见图2）。在LSE过程中，使用具有反向传播的随机梯度下降（SGD）来最小化损失函数。批量大小为64，基本学习率为0.01，动量为0.9。在WDST过程中，内容损失和风格损失之间的比率为10- 3，内容损失和101范数损失之间的比率为10- 5，计算风格损失时每层的权重为0.2.对于第一级和第二级分解，最大迭代次数分别为5000和1000。我们使用EDSR方法[15]获得AO，使用CX方法[19]获得AP。在[19]之后，使用NRQM [16]计算感知评分。我们评估了我们的方法在各种数据集上的性能，包括Set5 [1]，Set14 [29]，BSD 100 [18]，Urban100 [9]和Pestrian [2]。基准。比较方法分为三类：旨在提高客观质量的方法包括A+ [25]，Self-Ex [9]，SRCNN [6]，ESPCN [22]，SRResNet-MSE [14]，VDSR [12]，EDSR[15] [30] 和 RCAN; 旨在提高感知质量的方法，包括SRGAN-vgg 54 [14]，SRGAN-vgg 22 [14]，ENet [21]和CX [19];以及旨在提高客观和感知质量的方法5678928.0 27.5 27.026.526.0 25.5峰值信噪比/dB25.0二十四点五知觉评分EDSRSRResNet-MSE我们的我们的（Ao=RCA（Ao=EDSN，Ap=CXR，Ap=CX））RCANμ =0.2我们（Ao=SRRAp=SRGesNet-MSEAN-vgg5，、四、μ = 0.4μ = 0.6SRGAN-3083(PSNR/NRQM）（21.57dB/3.1230）（21.65dB/6.4596）（21.67dB/6.2158）（23.18dB/6.5650）（23.63dB/6.6872）(a)GT(b)双三次（c）G-MGBP（d）ESRGAN（e）Deng(f)我们21.53dB/5.925119.47dB/9.063119.39dB/9.073219.81dB/9.079721.51dB/9.0932(a) GT（b）SRCNN(c) SRGAN_vgg54(d) ENet（e）CX（f）Ours图7.4倍放大的BSD 100图像的视觉比较红色数字表示PSNR和NRQM值。图8.Urban100图像的4倍放大视觉比较红色数字表示PSNR和NRQM值。表3.小波滤波器对Set 14数据集的影响滤波器 haarDB2bior 2.2rbior 2.2coif2DB4bior 4.4PSNR28.0628.0828.0727.9628.0528.0628.05SSIM 0.8379 0.8369 0.83560.83360.8344 0.8348 0.8343NRQM 7.5109 7.6103 7.68277.64037.7101 7.6928 7.7442包括SRGAN-MSE [14]、WDST的有效性。为了显示我们的WDST算法的有效性，我们在图中可视化。5输入内容和风格子带，以及输出子带采用WDST算法。可以看出，内容子带缺乏许多高频细节，风格子带具有杂乱的结构，例如，马腿和尾巴。经过WDST处理后，输出的子带克服了这些缺点，具有丰富的高频细节和清晰的纹理结构。在一定程度上，输出子带在内容子带的引导下，纠正了风格子带中的错误信息，并将其重新定位到正确的位置。我们还在图中显示了子带的直方图分布。5.可以看出，我们的直方图更接近EDSR的地面实况，这是我们具有更高感知质量的原因。小波滤波器灵敏度。在我们的算法中，我们使用小波滤波器将每个图像分解成不同的子带。为了研究小波文件的影响，在我们的算法的性能之后，我们在表3中给出了PSNR、SSIM和NRQM结果，表4.WDST各子带的消融研究子带LHHLHHPSNRSSIMNRQMNYY27.190.71957.8490WDSTYYNYYN27.2826.960.72270.71057.83438.0542YYY26.820.70588.5948小波滤波器这些过滤器包括来自Daubechies，bior 2的haar ， db2 和 db4 。 2 和 bior4 。 4 来自 Biorthogonal ，rbio2。2和Coif-man小波族中的coif2。从表3中可以看出，小波滤波器确实对性能有一定的影响。具体而言，haar滤波器具有最高的SSIM值，db2滤波器在PSNR和bior 4方面表现最好。4过滤器具有最佳的感知质量。然而，不同过滤器之间的差异并不十分显著。感知失真（PD）性能。图1比较了PSNR和NRQM平面中不同方法的PD性能正如我们所看到的，方法A+，Self-Ex，SRCNN，ESPCN，SRResNet-MSE，VDSR，EDSR，RCAN占据左上区域，这意味着它们具有高的客观质量但低的感知质量。相比之下，方法SRGAN-vgg 54、SRGAN-vgg 22、ENet和CX占据右下区域，这指示它们具有高感知质量但低客观质量。其他方法如 SRGAN-MSE、PESR、Deng和ESRGAN处于中间区域，它们都试图在失真和感知质量之间实现良好的权衡。在所有这些方法中，我们的方法最接近于308424.97dB/8.845923.15dB/8.431623.50dB/8.959125.77dB/8.947224.04dB/8.581026.47dB/9.137922.20dB/8.685426.49dB/7.848828.26dB/9.039222.56dB/8.791826.99dB/7.948628.71dB/9.1111(a) SRGAN-MSE [14]和我们的（b）邓[5]和我们的图9.（a）将SRGAN-MSE与我们的图像进行比较;（b）将邓小平的图像与我们的图像进行比较。第一行（a）和(b) 是SRGAN-MSE和Deng，第二行是我们的方法。红色数字表示PSNR和NRQM值。左下角，这意味着我们在客观和感知质量之间实现了最佳权衡。表2比较了我们的方法与SRGAN-MSE [14]，G-MGBP[20]，PESR [26]，Deng [5]的数值结果。和ESRGAN[27]（α=0.8），它们都旨在提高感知和客观质量。正如我们所看到的，我们的方法优于其他人在感知和客观质量。内容和样式输入灵敏度。为了更清楚地显示我们的方法的位置，我们在图中画出6 EDSR和CX的PD曲线，这是两种默认方法生成Ao和Ap。该曲线通过用参数μ∈[0，1]插值Ao和Ap的像素值绘制，如下所示Ar=μ<$Ap+（1−μ）<$Ao（ 10）显然，当μ增大时，NRQM增大，而PSNR减小。正如我们可以看到从图。6，我们的方法远远低于PD曲线，这意味着我们比简单的插值A o和Ap.为了研究我们对内容和风格输入的敏感性，我们还绘制了RCAN[30]和CX，SRResNet-MSE和SRGAN-vgg 54 [14]，以及我们相应的结果。我们可以看到，即使在在最坏的情况下（以SRResNet-MSE和SRGAN-vgg 54作为输入），我们的算法仍然实现了更好的PD折衷（即，PSNR/NRQM=26.56 dB/8.5005 ）高于 Deng （ 26.46dB/8.4452）和ESRGAN（26.44 dB/8.3034）。目视比较。图图7和图8显示图像我们的和其他的方法。我们可以从图中看到。7，我们的方法可以正确地恢复桥梁的纹理和窗户的结构，而其他人要么扭曲纹理，要么努力恢复结构。从图8中可以看出，我们的方法可以清晰地恢复墙壁和灯光，而其他方法则无法做到这一点。我们的方法也克服了其他方法的许多缺点.图9（a）将我们的方法与SRGAN-MSE [14]进行了比较。我们可以看到，SRGAN-MSE方法产生了大量的异常噪声和错误的纹理图像，而我们的方法没有这些问题。图9（b）比较了我们的方法这表明邓[5]的图像是嘈杂的，结构混乱。相比之下，我们的方法能够重建具有干净和准确结构的图像。消融研究。为了研究每个高频子带对感知失真性能的影响，我们在表4中示出了当在子带之一上不执行WDST时的结果。从该表中，我们可以看到每个子带对感知失真性能有贡献。当WDST不存在于其中任何一个中时，感知质量（NRQM）显著降低。然而，与LH和HL子带相比，HH子带的影响不是很显著。这是因为HH子带包含对角信息，其不像LH和HL子带中分别包含的水平和垂直信息那么多。5. 结论和今后的工作本文提出了一种基于小波域风格转移的新方法，很好地解决了SISR中的感知失真问题。我们发现，客观和感性的质量是由不同的元素的图像。为了实现它们之间的最佳折衷，我们使用平稳小波分解（SWT）将与客观质量相关的元素与与感知质量相关的元素分离。然后，我们可以用不同的目标来优化每一个，而对另一个几乎没有影响。这种“分而治之”的策略实现了图像失真和感知之间的良好平衡，我们相信这可以激发更多的后续工作，以进一步推动SISR的重建性能。与传统的风格转换工作[14]一样，我们需要多次迭代来解决（6）中的优化问题，这有点耗时，即，每个子带大约60秒。受实时艺术风格转换工作[11]的启发，我们未来的工作是训练一个前馈网络来预测最小化（6）的融合子带，从而显着降低计算复杂度。3085引用[1] Marco Bevilacqua 、Aline Roumy 、Christine Guillemot和Marie Line Alberi-Morel。基于非负邻域嵌入的低复杂度单幅图像超分辨率英国机器视觉会议（BMVC），第1IEEE，2012。[2] Yochai Blau 、 Roey Mechrez 、 Radu Timofte 、 TomerMichaeli和Lihi Zelnik-Manor。2018年PIRM感知图像超分辨率挑战赛。欧洲计算机视觉会议（ECCV），第334Springer，2018.[3] 约柴·布劳和托莫·麦克利。感知失真的权衡。在计算机视觉和模式识别会议（CVPR）上，第6228-6237页[4] Jun-Ho Choi，Jun-Hyuk Kim，Manri Cheon，and Jong-Seok Lee.基于深度学习的图像超分辨率，考虑定量和感知质量。arXiv预印本arXiv：1809.04789，2018。[5] 辛登。通过风格转换提高图像质量，实现单图像超分辨率。IEEE Signal Processing Letters，25（4）：571[6] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。在欧洲计算机可视化会议中，第184-199页Springer，2014.[7] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在计算机视觉和模式识别会议，第2414-2423页[8] Huaibo Huang，Ran He，Zhenan Sun，and Tieniu Tan.Wavelet-srnet：一个基于小波的cnn，用于多尺度人脸超分辨率。在国际计算机视觉会议，第1689-1697页[9] Jia-Bin Huang，Abhishek Singh，and Narendra Ahuja.单图像超分辨率从变换的自我范例。在计算机视觉和模式识别会议中，第5197-5206页[10] B jornJ a werth和WimSweldens。基于小波的多分辨分析综述。SIAM review，36（3）：377[11] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议（ECCV）中，第694-711页施普林格，2016年。[12] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络的精确图像超分辨率。在计算机视觉和模式识别会议（CVPR），第1646-1654页[13] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.用于图像超分辨率的深度递归卷积网络在计算机视觉和模式识别会议，第1637-1645页[14] ChristianLedig ， Lucas Theis ， Ferenc Huszar ， JoseCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken ， Alykhan Tejani ， Johannes Totz ，Zehan Wang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在计算机视觉和模式识别会议（CVPR），第4681[15] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.单图像超分辨率的增强深度残差网络在计算机视觉和模式识别会议（CVPR）研讨上，第1卷，第3页，2017年。[16] 马超，杨致远，杨小康，杨明轩。学习用于单图像超分辨率的无参考质量度量。计算机视觉和图像理解，158：1[17] 斯蒂芬·G·马拉特。多分辨率信号分解的理论：小波表示 .IEEE Transactions on Pattern Analysis MachineIntelligence，（7）：674-693，1989.[18] David Martin Charless Fowlkes Doron Tal 和 JitendraMalik人类分割自然图像数据库及其在评估分割算法和测量生态统计中的应用。在国际计算机视觉会议（ICCV），第2卷，第416IEEE，2001年。[19] Roey Mechrez ，Itamar Talmi，Firas Shama ，and LihiZelnik- Manor.在上下文丢失的情况下保持自然图像统计亚洲计算机视觉会议，第427-443 页。Springer ，2018.[20] Pablo Naviente Michelini，Dan Zhu，and Hanwen Liu.Multi–scale在欧洲计算机视觉会议（ECCV）上，第3-19页。Springer，2018.[21] MehdiSMSajjadi ， BernhardSchoülk opf ， andMichaelHirsch.Enhancenet：通过自动纹理合成实现单幅图像超分辨率。国际计算机视觉会议（ICCV），第4501IEEE，2017年。[22] 施文哲，何塞卡瓦列罗，费伦茨胡斯扎，约翰斯托茨，安德鲁P艾特肯，罗布主教，丹尼尔Rueckert和王泽汉。使用有效的子像素卷积神经网络实现实时单图像和视频超分辨率。在计算机视觉和模式识别会议，第1874-1883页[23] Karen Simonyan和Andrew Zisserman用于

下载后可阅读完整内容，剩余1页未读，立即下载