基于局部判别学习的稳定超分辨率方法

75 浏览量更新于2023-10-26 收藏 13.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

56570细节或伪影：一种基于局部判别学习的逼真图像超分辨率方法0Jie Liang 1*，Hui Zeng 2*和Lei Zhang 1†01 香港理工大学，2 OPPO研究 {liang27jie,cshzeng}@gmail.com; cslzhang@comp.polyu.edu.hk0摘要0基于生成对抗网络（GAN）的单图像超分辨率（SISR）近来引起了越来越多的关注，因为它具有生成丰富细节的潜力。然而，GAN的训练不稳定，它经常引入许多感知上不愉快的伪影以及生成的细节。在本文中，我们证明了可以训练一个基于GAN的SISR模型，它可以稳定地生成感知上逼真的细节，同时抑制视觉伪影。基于这样的观察，即伪影区域的局部统计特征（例如残差方差）通常与感知友好的细节区域不同，我们开发了一个框架来区分GAN生成的伪影和逼真的细节，并生成一个伪影图来规范和稳定模型训练过程。我们提出的局部判别学习（LDL）方法简单而有效，可以轻松地插入现有的SISR方法中，并提升它们的性能。实验证明，LDL优于最先进的基于GAN的SISR方法，在合成和真实数据集上不仅实现了更高的重建准确性，而且具有更好的感知质量。代码和模型可在以下网址获取：0https://github.com/csjliang/LDL01. 引言0单图像超分辨率（SISR）[6, 13, 14, 19, 20，30-33, 38, 40, 42, 45, 47, 48]0单图像超分辨率（SISR）[30-33, 38, 40, 42, 45, 47,48]旨在从低分辨率（LR）观测中重建高分辨率（HR）图像，是低级计算机视觉中一个热门且具有挑战性的研究课题。训练深度神经网络（DNN）进行SISR已经变得流行，而许多基于DNN的SISR模型[2, 6, 27, 37,48]是使用像素级别的ℓ1和ℓ2损失以及/或基于局部窗口的度量（如SSIM[41]）进行训练的。众所周知，尽管这些损失可能导致PSNR和SSIM指标的提高，但它们很难产生丰富的图像细节[4, 20]。0* 平等贡献。†本工作得到香港研究资助局RIF基金（R5001-18）的支持。0超分辨率结果低分辨率输入超分辨率结果低分辨率输入0类型A。平滑区域/大尺度结构0类型B。类似纹理的混叠细节0类型C。细小尺度的混叠结构0图1.ESRGAN生成的三种代表性的超分辨率图像区域[40]。对于每个示例，左边是低分辨率（LR）补丁，右边是其GAN-SR结果。类型A的补丁代表易于超分辨率的区域，例如平滑和大尺度结构区域，在LR输入中保留了主要结构。相反，类型B和类型C的补丁具有细节的细小尺度，由于LR输入中的信号混叠，很难被忠实地恢复。纹理类型的B补丁的结果在像素级别上与真实值存在差异，但在感知上是逼真的，因为这些模式在观察者中具有自然的不规则性和弱先验。然而，类型C补丁的结果展示了感知上不愉快的视觉伪影，因为过冲像素和扭曲的结构对人类感知非常敏感。0这些损失可能导致PSNR和SSIM指标的提高，但它们很难产生丰富的图像细节[4, 20]。0随着生成对抗网络（GAN）[9,15]的快速发展，基于GAN的超分辨率图像恢复（GAN-SR）近来引起了广泛关注，因为它具有恢复富含细节的清晰图像的潜力[20, 30, 32, 40,44]。尽管取得了很大的进展，但对抗训练不稳定，经常引入不愉快的视觉伪影[20, 44]。由于用户大多数期望56580在SISR结果中展示了丰富而逼真的细节[5, 12,28]，如何抑制GAN-SR的视觉伪影而不影响逼真的细节成为一个关键问题。不幸的是，细节和伪影经常纠缠在图像的高频组成部分中。因此，在现有框架下优化其中之一往往会损害另一个[4, 20, 25,40]。为了解决上述挑战，我们深入研究了GAN-SR方法，并将它们的结果分为三种典型类型的区域，如图1所示。具体而言，A型补丁（例如，平坦的天空，长边）很容易重建，因为它们平滑或仅包含大尺度结构。相反，对于B型和C型的补丁，很难产生高保真度的SISR结果，因为它们具有许多细小的细节，并且在退化过程中受到信号混叠的影响，其中大多数高频分量丢失了。幸运的是，对于纹理样式的B型补丁（例如，动物的毛发，远处的树叶），像素是随机分布的，因此SR结果与真实值之间的差异对人类感知不敏感。因此，GAN-SR方法生成的丰富细节可以在这些区域中提供更好的感知质量。然而，C型补丁（例如，细小的树枝，建筑物中密集的窗户）包含许多细小的规则结构或相邻像素之间的锐利过渡。GAN-SR方法生成的扭曲结构和超调像素很容易被观察者感知为不愉快的伪影。基于上述分析，我们可以看到，为了获得感知逼真的SISR结果，应该抑制C型区域中的视觉伪影，同时保留A型和B型区域中生成的逼真细节。为了实现这个目标，我们分析了三种类型的GAN-SR区域的局部统计特征，并发现SISR结果与真实值HR图像之间的局部残差方差可以作为区分不愉快的伪影和逼真细节的有效特征。因此，我们构建了一个像素级的映射，指示每个像素成为伪影的概率，基于局部和补丁级别的残差方差。我们通过模型集成策略进一步优化了判别图，以鼓励稳定和准确的优化方向，以实现高保真度重建。基于优化后的判别图，我们设计了一个局部判别学习（LDL）框架，以惩罚伪影而不影响逼真细节。总之，在本文中，我们首先分析了GAN-SR结果和模型训练的不稳定性。然后，我们提出了明确区分视觉伪影和逼真细节的方法，并设计了一个LDL框架来规范对抗训练。我们的方法简单而有效，可以轻松地插入现成的GAN-SR方法中。它提供了一种在生成丰富逼真细节的同时抑制GAN-SR中伪影的新方法。我们在合成和真实世界的SISR任务上进行了广泛的实验，0LDL在定量和定性上都明显优于现有技术。02. 相关工作0自从SRCNN[6]的先驱工作，该工作首次引入了一个三层卷积神经网络（CNN）用于SISR，已经提出了许多基于CNN的SISR模型，它们可以根据它们使用的损失和训练策略大致分为信号保真导向型[2, 27, 37, 48]和感知质量导向型[14, 20, 22, 30, 32,40]。信号保真导向型SISR方法。这类别中的SISR方法采用像素级距离度量（如ℓ2和ℓ1损失）和局部结构相似度度量（如SSIM[41]）来优化SISR输出与HR真实值之间的信号保真度。自从SRCNN [6]以来，研究人员通过堆叠更多的卷积层[18,19]，设计更复杂的构建块[23, 34]和连接[20, 36,48]取得了显著进展。例如，得益于非常深的网络、有效的残差连接和通道注意力，RCAN[47]在重建准确性（例如，PSNR）方面取得了卓越的性能。然而，由于SISR问题的不适定性，优化像素级损失往往会得到一个模糊的结果，这是许多可能解的平均值[4, 30,32]。SSIM损失可以更好地保留图像的局部结构，但很难再现细节。感知质量导向型SISR方法。为了提高SISR图像的感知质量，Johnson等人[14]提出了一种感知损失，通过计算HR和SISR结果在VGG特征空间中的距离来实现。为了解决信号保真导向方法在再现图像细节方面的困难，最近的大多数工作都采用了GAN技术[9]，因为它们能够通过区分图像分布[8, 29,39]来生成所需的图像。例如，Ledig等人[20]提出了SRGAN，通过在SRResNet生成器的基础上进行对抗训练。为了提高视觉质量，Wang等人[40]提出了ESRGAN，引入了残差内残差稠密块（RRDB）以及对抗训练和感知损失的其他改进。RRDB已经成为许多最先进的GAN-SR方法[25, 38,45]中的标准骨干。Zhang等人[44]提出了一种可训练的展开网络，称为USRGAN，它集成了传统基于模型的方法和基于CNN的方法的优点。Ma等人[25]通过在网络中引入一个额外的分支来引入梯度引导。通过减轻结构失真和不一致性问题，所提出的SPSR方法在合成数据上在GAN-SR方法中取得了领先的性能。然而，所有现有GAN-SR作品的一个关键问题在于它们会产生许多不愉快的视觉00.250.50.751𝑰!"𝑰#"𝑰#"𝑰$"𝑰!"%𝑰#"𝑰$"%Type C𝑰!"&𝑰!"'𝑰$"&𝑰$"'56590重建损失预训练解决方案0感知上愉悦的解决方案感知上不愉悦的解决方案0可能的优化方向0图2.GAN-SR模型可能的优化方向示例。中心的补丁是通过使用ℓ1损失的预训练SISR模型获得的，而红色和黄色框中的补丁是通过对抗损失可能的GAN-SR结果。0伪影是由于对抗训练的不稳定性而产生的。备注。正如[4]所指出的，信号保真度和感知质量导向的SISR方法都存在感知失真权衡；也就是说，改善感知质量或信号保真度会影响现有训练策略下的另一个。经验也告诉我们，抑制伪影可能会限制细节的生成。在本文中，我们提出通过明确区分伪影和真实细节来规范对抗训练，从而有效解决了这个困境。最近的研究，例如BSRGAN [45]和RealESRGAN[38]，也认识到了真实世界图像SR任务的重要性。作为一个即插即用的模块，我们的方法也可以轻松扩展到这样的挑战性任务。实验结果证明了它在生成真实细节的同时抑制伪影方面的高通用性能。03. 方法论03.1. GAN-SR引起的视觉伪影0大多数现有的GAN-SR方法[20,40]是使用三种损失的加权组合进行训练的：0L GAN = λ1L recons + λ2L percep + λ3L adv，(1)0其中L recons表示像素级的重建损失，例如ℓ1和ℓ2距离，Lpercep是感知损失[14,20]，用于测量VGG特征空间中的特征距离，Ladv表示对抗损失[9,40]。λ1，λ2和λ3是平衡参数，通常设置为0.01，1，0.005，与ESRGAN [40]中相同。根据SRGAN[20]的先驱工作，仅使用L recons损失将导致模糊的平均值0类型A 类型B0图3.GAN-SR结果在三种类型区域上的玩具示例。通过在HR补丁上应用2×2平均池化和步长2，可以获得LR补丁。类型A补丁中的大尺度结构可以以良好的保真度和感知质量进行很好的复原。尽管纹理样式的B型补丁中的像素没有被忠实地重建，但由于HR补丁中像素的随机分布，重建补丁的感知质量并不差。然而，对于那些C型补丁，GAN-SR结果中存在着视觉上不愉快的伪影，因为细致而规则的结构被破坏了。0所有可能的HR图像，而Ladv损失可以将SISR解决方案推离模糊的平均值，生成更多细节。不幸的是，GAN-SR模型除了细节之外，还会生成许多感知上不愉悦的伪影。图2直观地说明了这一点。由于SISR是一个不适定的任务，一个LR输入对应于在高维图像空间中分散的许多可能的HR对应物。从仅使用Lrecons损失预训练的SISR模型生成的模糊解决方案（图2中的中心补丁）开始，LGAN损失可以沿着许多可能的方向更新它，有些产生感知上愉悦的结果（黄色框中），有些产生不愉悦的结果（红色框中）。这导致了一个不稳定的优化过程，可能会在细节中产生伪影。上述情况在不同的图像区域中可能会有所不同，如图1所讨论的。为了更好地理解GAN-SR在图像的不同区域中生成视觉伪影的原因，在图3中我们展示了三种类型补丁的玩具示例。我们可以看到，对于类型A补丁，在其LR版本中保留了大尺度结构，HR补丁可以以良好的保真度和感知质量轻松复原。对于纹理样式的B型补丁，尽管它没有像素级的忠实重建，但GAN-SR输出的感知质量并不差。这主要是因为纹理样式的补丁中的像素通常在一个相对较小的范围内随机分布，以至于人眼很难察觉像素级的差异。相反，C型补丁具有规则和锐利的过渡，而在退化后的LR补丁中丢失了局部模式。大量变化甚至矛盾的HR目标导致了不稳定的对抗训练，GAN-SR结果中的不规则和不自然的模式很容易被观察者感知为伪影。在图4中，我们进一步研究了GAN-SR方法在不同补丁上的训练稳定性，包括20000400006000080000100000Training Iterations0.000.010.020.030.040.050.06Mean Absolute Difference (MAD)Type A - ESRGANType B - ESRGANType C - ESRGANType A - LDLType B - LDLType C - LDL56600图4. ES-RGAN[40]和我们的LDL对不同补丁的训练稳定性。这里使用了图1中的平坦天空（类型A）、动物毛皮（类型B）和细小树枝（类型C）的补丁。绘制了迭代k和k +5000之间中间GAN-SR结果的平均绝对差异（MAD）。0图1中的平坦天空（类型A）、动物毛皮（类型B）和细小树枝（类型C）。我们计算了两个不同迭代次数的中间GAN-SR输出的平均绝对差异（MAD），即MAD =|I（k）SR−I（k +p）SR|，其中I（k）SR是迭代k时的GAN-SR结果，我们将p设置为5000。ESRGAN [40]的MAD vs.k曲线绘制为实线。可以看出，类型A补丁的训练过程是稳定的（MAD的值和变化都很小）。类型B的变化较大，表明优化过程中存在较高的不确定性。类型C的变化最大且不稳定，意味着在一个大空间中存在许多可能的类型C的GAN-SR解决方案，如图2所示。03.2. 区分伪影和真实细节0根据第3.1节的调查结果，我们应该抑制类型C补丁中伪影的生成，同时保留类型A和B补丁中的真实细节。为了实现这一具有挑战性的目标，我们精心设计了一个像素级的图来区分伪影和真实细节，以及一种稳定GAN-SR模型训练的学习策略。使用三个补丁在图5中说明了整个图生成过程。伪影的区分。假设全彩SISR图像ISR的分辨率为H×W×3，我们的目标是找到一个像素级的图M∈RH×W×1，其中M（i，j）∈[0，1]表示ISR（i，j）是伪影像素的概率。考虑到伪影和细节都属于高频图像分量，我们首先计算地面真实图像IHR和SISR结果ISR之间的残差以提取高频分量：0R = IHR−ISR。（2）0如图5的第3列所示，平滑的A型补丁中的大多数像素具有非常小的残差。B型和C型补丁的残差较大，而0补丁B中残差的分布更加随机。基于以下观察结果，即伪影通常由过冲像素值组成，我们建议将残差图R的局部方差计算作为主要图来指示伪影像素：02），（3）其中var表示方差算子，n表示局部窗口大小。我们经验性地设置n =7。如图5的第4列所示，主要图M可以有效地检测到补丁C中的伪影像素。然而，由于局部方差是用一个非常小的感受野计算的，它在区分伪影和边缘、纹理方面是不稳定的。补丁A和B中的一些像素也会有较大的响应，导致对真实细节的生成错误惩罚。为了解决这个问题，我们进一步从整个残差图R计算一个稳定的补丁级方差σ如下：0σ =（var（R））1a，（4）0其中（∙）1a将全局方差var（R）缩放到适当的尺度。我们在所有实验中都将a固定为5。一般来说，类型A补丁的σ值比类型B和类型C补丁的σ值小，而类型C补丁的σ值最大。通过使用σ来缩放主要图M，可以得到一个更可靠的伪影图。如图5的第5列所示，对补丁A和B的过度惩罚问题大部分得到解决，而补丁C中的伪影仍然被识别出来。稳定和改进。虽然σ∙M可以区分不同类型补丁中的伪影，但它仍然可能过度惩罚补丁C中的真实细节，并且稍微惩罚补丁A和B中高保真度细节的生成，特别是在早期训练阶段。为了缓解这个问题，我们进一步稳定训练过程并改进伪影图。具体而言，用Ψ表示通过梯度下降实时优化的GAN-SR模型，我们使用指数移动平均（EMA）技术从Ψ中临时合成一个更稳定的模型ΨEMA：0Ψ ( k ) EMA = α ∙ Ψ ( k − 1) EMA + (1 − α ) ∙0其中 α 是加权参数。与 Ψ 相比，Ψ EMA更可靠，可以减轻随机伪影的生成。根据EMA的先前方法[16, 17]，我们设置 α = 0.999。通过 Ψ EMA，我们可以进一步精细化伪影图 σ ∙ M，以减轻优化过程中对真实细节生成的惩罚。记 Ι SR 1 =Ψ( Ι LR ) 和 Ι SR 2 = Ψ EMA ( Ι LR )为两个GAN-SR模型的输出。通常，集成模型的输出，即 ΙSR 2 ，几乎没有伪影，而 Ι SR 1可能同时包含更多细节和伪影。然后我们计算两个残差图𝑰!"𝑰#"|𝑹|𝑴𝜎 & 𝑴𝑴$%&'(%|𝑹𝟏| < |𝑹𝟐|Mrefine(i, j) =Lartif = ∥Mrefine · (IHR − ISR1)∥1.(7)where LGAN is defined in Eq. (1) and β is a weighting pa-rameter. We simply fix β = 1 in all our experiments.The pipeline of the proposed locally discriminativelearning (LDL) method is shown in Figure 6. The inputILR is fed into two models, i.e., Ψ and ΨEMA, to output ISR1ΨΨ!"#𝑰$%𝑰&%!𝑰'%ℒ()*+,𝑴)-.+/-𝑰&%"56610类型A0类型B类型C0图5. 伪影图生成过程的可视化。Ι SR ，Ι HR ，| R | ，M ，σ 和 M refine 分别表示GAN-SR方法的SISR输出，真实图像块，Ι SR 和 Ι HR之间的残差的绝对值，由公式（3）计算得到的主要图，由公式（4）计算得到的缩放因子，以及由公式（6）计算得到的精细化图。在第5列中，类型A、B和C的σ值分别为0.25、0.39和0.67。最后一列显示了白色像素表示的 | R 1 | < | R 2 | 的位置。0R 1 = I HR − I SR 1 和 R 2 = I HR − I SR 2，通过以下方式对伪影图 σ ∙ M 进行精细化：0� 0 ，如果 | R 1 ( i, j ) | < | R 2 ( i, j) |0σ ∙ M ( i, j ) ，如果 | R 1 ( i, j ) | ≥ | R2 ( i, j ) | 。 (6)0也就是说，精细化图 M refine 仅对满足 | R 1 ( i, j ) | ≥ | R2 ( i, j ) | 的像素进行惩罚。在 I SR 1 的残差小于 I SR 2的位置，模型 Ψ朝着正确的方向进行更新，不应该受到惩罚。图5的最后两列显示了精细化伪影图 M refine 和位置图 | R 1 | < | R 2 |。我们可以看到，精细纹理和理想边缘的位置已从精细化伪影图中去除，以便更准确地对伪影像素进行惩罚。03.3. 损失函数和学习策略0给定精细化伪影图 M refine，我们提出了以下伪影区分损失 L artif ：0损失函数 L artif可以很容易地引入到现有的GAN-SR模型中，最终的损失函数为：0L LDL = L GAN + β L artif ，(8)0参数的EMA0+� !"# 训练0图6. 提出的LDL方法的整体学习流程。0和 Ι SR 2 。然后使用真实图像 Ι HR ，以及 Ι SR 1 和 Ι SR 2构建伪影图 M refine 。然后，基于 Ι HR ，Ι SR 1 和 Mrefine 计算损失函数 L artif 。最后，使用 L LDL 优化模型Ψ ，并且将 Ψ 的参数临时集成到 Ψ EMA中。重复此过程直到收敛。使用提出的LDL方法，我们训练相同的RRDB骨干网络[40]，并使用虚线在图4中绘制了中间GAN-SR输出的MAD曲线。可以看出，我们的LDL方法在模型学习中具有比ESRGAN更好的稳定性，特别是对于类型B和类型C的图像块，导致更小的MAD和MAD变化。04. 实验结果 4.1. 实验设置0骨干网络和比较方法。我们在三个代表性的骨干网络，即SRResNet [20]，RRDB [40]和SwinIR[21]上验证了提出的LDL方法的有效性，得到了SR-ResNet+LDL，RRDB+LDL和SwinIR+LDL。SRResNet是一个轻量级网络，我们将SRResNet+LDL 与其他方法进行比较ESRGAN[40]USRGAN[44]SPSR[25]RRDB[40]+LDLRRDB[40]+LDLSwinIR[21]+LGANSwinIR[21]+LDLLPIPS ↓Set50.08000.07530.07590.07580.07950.06470.06700.06910.06560.0655Set140.13130.13270.13030.12410.13470.12070.12070.11320.11600.1091Manga1090.07160.07070.06730.06490.06300.06720.05530.05440.05420.0469General1000.09470.09640.08980.08790.09370.08620.07900.07960.07960.0740Urban1000.13430.14390.13300.12290.13300.11840.10960.10840.10770.1021DIV2K1000.13310.12570.11720.11540.13250.10990.10110.09990.10380.0944DISTS ↓Set50.10850.10030.10100.09490.10450.09210.09170.09190.09300.0899Set140.11330.10670.10160.09510.09970.09200.09350.08660.09300.0869Manga1090.06460.05570.05230.04710.04710.04630.04040.03550.03650.0315General1000.09920.09820.09390.08740.09310.08840.08270.08010.08350.0794Urban1000.10620.10810.09890.08800.09750.08490.08220.07930.08350.0800DIV2K1000.07360.06630.06240.05930.06450.05460.05280.05260.05310.0507FID ↓Set539.26131.50727.54227.21537.00630.90425.28824.80335.40127.955Set1460.49363.94552.08054.93355.63553.86749.57743.45448.91046.057Manga10921.46411.94812.65211.55210.65810.6629.85510.1619.7038.680General10036.84533.86832.73729.84332.95930.15927.50627.21127.55725.304Urban10021.37022.16221.51220.34521.55518.67217.75816.35117.55516.282DIV2K10018.18313.92214.82313.55714.03113.75412.14512.12112.73612.075PSNR ↑Set530.05729.92030.52730.43830.91030.39730.98531.03330.87331.028Set1426.74326.83927.27826.59427.40526.86027.49127.22827.28227.526Manga10928.16728.11028.66428.41328.75328.56129.40729.62029.34530.143General10029.15929.32729.77529.42530.00129.42430.23230.28930.10430.441Urban10024.33824.41024.74524.36524.89124.80425.49825.45925.73626.231DIV2K10028.08528.16528.60228.17528.78728.18228.95128.81928.78429.117SSIM ↑Set50.84830.84780.85700.85230.86570.84430.86260.86110.86550.8611Set140.71750.72520.73660.71440.74860.72540.74760.73580.74070.7478Manga1090.85620.86320.87020.85950.87170.85900.87460.87340.87960.8880General1000.80600.80740.81640.80950.82410.80910.82770.82800.83050.8347Urban1000.72350.73020.74090.73410.75030.74740.76730.76610.77860.7918DIV2K1000.77070.77450.78550.77590.79410.77200.79510.78970.79110.801156620表1.GAN-SR方法与提出的LDL之间的定量比较。根据所使用的主干网络，进行了三组比较：前3列是SRResNet-like主干网络，中间5列是RRDB主干网络，最后2列是SwinIR主干网络。每组中的最佳结果以粗体显示。↑和↓分别表示较大或较小的分数更好。0指标基准 SFTGAN [ 39 ] SRGAN [ 20 ] SRResNet [ 20 ]+LDL0训练数据集 ImageNet + OST DIV2K DIV2K DF2K + OST DF2K DIV2K DIV2K DF2K DF2K DF2K0与SRGAN [ 20 ]和SFTGAN [ 39]进行比较，这两者具有相当数量的参数。RRDB在最近的GAN-SR方法[ 25 , 40 , 44]中被广泛使用，因为它具有竞争性能。我们将RRDB+LDL与ESRGAN [ 40 ]、USRGAN [ 44 ]和SPSR [ 25]进行比较，它们都使用RRDB作为主干网络。最近，SwinIR通过使用Swin Transformer架构[ 24]报告了出色的SISR性能。我们还分别使用 L LDL 和 L GAN（SwinIR+ L GAN）损失训练SwinIR，并比较它们的性能。我们还将LDL应用于RealESRGAN [ 38]，验证了LDL在真实世界SISR中的有效性，并将得到的RealESRGAN+LDL模型与RealESRGAN和BSRGAN [ 450训练数据集和设置。按照先前的研究[20, 25,40]，我们在合成数据（使用MATLAB双三次插值核进行下采样）和真实世界实验中进行4×的尺度因子的实验。我们还在补充材料中报告了合成数据上2×的GAN-SR结果。我们使用与ESRGAN [40]相同的数据增强、鉴别器和优化器设置。我们在DIV2K[1]（800张图像）或DF2K（3450张图像）数据集[23,35]上训练我们的模型，HR补丁的分辨率为128×128。我们使用4个NVIDIA GTX 2080TiGPU和PyTorch进行实验，每个GPU的批量大小为16。我们使用预训练的面向保真度的模型初始化生成器，并根据[38]计算合成数据和真实世界设置的感知损失。学习率为1e-4，训练迭代次数为300k。评估基准和指标。我们使用6个基准进行评估，包括Set5[3]、Set14 [43]、Manga109 [26]、General100 [7]、Urban100 [11]和DIV2K100[1]。我们根据感知质量和重建准确性比较GAN-SR的结果。对于前者，我们使用LPIPS[46]、DISTS [5]和FID[10]作为指标。LPIPS和DISTS已经在评估GAN-SR结果方面验证了有效性[12]，而FID广泛用于评估图像生成任务中的图像感知质量[16]。对于后者，我们在YCbCr空间的Y通道上计算PSNR和SSIM指数。0定量比较。表1定量比较了最先进的GAN-SR方法和我们的LDL。我们可以看到，我们提出的LDL方案在感知质量（LPIPS、DISTS、FID）和重建准确性方面都有所改进。04.2. 与最先进技术的比较0图7. 与使用RRDB [40]作为骨干网络的最先进GAN-SR方法（包括ESRGAN[40]、USRGAN [44]、SPSR[25]和我们的RRDB+LDL）的视觉比较（在屏幕上更好的放大）。可以看到，我们的方法在重建逼真细节和抑制伪影方面具有明显优势。更多的视觉比较可以在补充材料中找到。Specifically, for the three light-weight models, SRRes-Net+LDL outperforms SFTGAN and SRGAN on mostbenchmarks in terms of those perceptual quality metricsLPIPS, DISTS and FID, and it outperforms SFTGAN andSRGAN on all benchmarks in terms reconstruction accu-racy, e.g., PSNR +0.3 ∼ 0.5dB and SSIM +0.01 over thesecond best method, respectively.56630（a）HR（b）Bicubic（c）ESRGAN（d）USRGAN（e）SPSR（f）RRDB+LDL（DF2K）0具体而言，对于这三种轻量级模型，SRResNet+LDL在大多数基准测试中在感知质量指标（LPIPS、DISTS和FID）方面优于SFTGAN和SRGAN，并且在所有基准测试中在重建准确性方面优于SFTGAN和SRGAN，例如PSNR + 0.3�0.5 dB和SSIM + 0.01超过第二好的方法。0在所有三种骨干网络（SRResNet、RRDB和SwinIR）的大多数基准测试中，我们的方法在重建准确性（PSNR、SSIM）方面表现出色。0对于基于CNN的骨干网络RRDB，我们分别在DIV2K和DF2K上训练GAN-SR模型，以与使用的竞争模型保持一致。我们可以看到，在三种竞争方法中，SPSR在感知质量指标方面表现最好，因为它从额外的网络分支中受益，可以恢复图像的梯度图。通过明确区分伪影并规范对抗训练，LDL在DIV2K验证集上相对于SPSR取得了改进，例如LPIPS从0.1099提高到0.1011（约8%）。USRGAN在三种竞争方法中实现了最佳的重建准确性，因为它集成了基于学习和基于模型的策略。与USRGAN相比，LDL0我们的方法不仅在所有基准测试中实现了更好的重建准确性，还改善了感知指标。这验证了LDL可以同时抑制视觉伪影并生成具有高保真度的更多细节。0对于基于Transformer的骨干网络SwinIR，我们发现SwinIR+ LGAN在大多数基准测试中在感知质量和重建准确性方面优于基于CNN的方法，展示了Transformer-based架构在GAN-SR中的潜力。正如预期的那样，SwinIR+LDL在大多数基准测试中进一步改进了SwinIR+ LGAN，展示了LDL在不同网络架构上的泛化能力。0定性比较。图7展示了使用RRDB骨干的GAN-SR方法之间的一些视觉比较。与定量比较得出的类似结论。与ESRGAN、USRGAN和SPSR相比，LDL在细粒度混叠结构的区域中产生的视觉伪影要少得多。此外，通过规范对抗训练过程，LDL能够以高保真度重建更多细节，例如具有规则模式的区域（例如窗户上的线条和桥上的网格）。这些改进使LDL成为一种实用的GAN-SR解决方案，用于图像质量增强。10.115428.1752✓0.102028.7403✓0.100628.6784✓0.100128.7615✓✓0.099928.81956640(a) 双三次插值 (b) BSRGAN (c) RealESRGAN (d) RealESRGAN+LDL0图8. 与最先进的真实世界SISR方法（包括BSRGAN [45]和RealESRGAN[38]）的视觉比较（在屏幕上更好地放大）。RealESRGAN+LDL的训练设置与RealESRGAN相同，只是使用了所提出的LDL损失函数LLDL。不同骨干的更多视觉比较可在补充材料中找到。0表2.对所提出的LDL方法的不同组件进行消融研究。结果是在DF2K上训练的RRDB+LDL模型在DIV2K验证集上评估得到的。�表示使用了相应的操作。0# M σ ∙ M M refine Ψ EMA LPIPS PSNR0用于图像质量增强的实用GAN-SR解决方案。04.3. 应用于真实世界的SISR0为了证明所提出的LDL的泛化能力，我们还将其应用于真实世界的SISR任务。与合成低分辨率图像上的SISR相比，真实世界低分辨率图像上的SISR面临着未知且更复杂的退化[45]。我们将Lartif损失引入RealESRGAN方法[38]，并保持所有其他设置不变来训练我们的RealESRGAN+LDL模型。由于没有真实的参考图像，我们在图8中与RealESRGAN和BSRGAN进行了定性比较。如图所示，在密集窗户区域，RealESRGAN引入了不愉快的伪影，而BSRGAN产生了相对平滑的结构。相反，我们的LDL抑制了伪影的生成，并鼓励产生清晰的细节。在树枝区域，所提出的LDL改善了细节的生成，得益于对伪影和真实细节进行明确而准确的区分。04.4. 消融研究0我们进行了消融研究，以研究我们的LDL方法中主要组件的作用，包括主要伪影图M，方程（4）中的全局缩放图σ∙M，方程（6）中的改进图M refine和EMA模型ΨEMA。结果报告在表2中。#1给出了0当不使用上述任何操作时，基准性能较低。通过在第2步中引入M，我们可以观察到在感知质量和重建准确性方面明显的性能提升。这证明了在GAN-SR中明确区分和惩罚视觉伪影的有效性。在第3步中使用σ∙M和第4步中使用Mrefine进一步提高了性能。最后，在第5步中在测试过程中使用稳定的EMA模型ΨEMA，我们获得了更多的性能提升，正如预期的那样。04.5. 限制0尽管提出的LDL方法在提高SISR输出的感知质量和重建准确性方面是有效的，但在受到严重混叠干扰的区域中仍存在一些视觉伪影的限制。以图7的最后一行为例，我们的结果周围仍然存在一些与密集窗口相关的伪影。在本文中，我们讨论了GAN-SR方法生成伪影的原因，并提出了一个简单的解决方案来解决这个问题，但我们相信还存在更有效的伪影区分和细节生成设计。05. 结论0在本文中，我们分析了GAN-basedSISR方法中如何生成视觉伪影，并提出了一种局部鉴别学习（LDL）策略来解决这个问题。我们精心设计了一个框架，在GAN-SR模型训练过程中区分视觉伪影和真实细节，并生成伪影图以明确惩罚伪影而不损害真实细节。所提出的LDL方法可以轻松地插入不同的现成GAN-SR模型，用于合成和真实世界的SISR任务。对广泛使用的数据集进行的大量实验表明，LDL在定量和定性上都优于现有的GAN-SR方法。56650参考文献0[1] Eirikur Agustsson和Radu Timofte。NTIRE2017年单幅图像超分辨率挑战：数据集和研究。在CVPRW，2017年。60[2] Saeed Anwar和NickBarnes。密集残差拉普拉斯超分辨率。IEEE模式分析与机器智能交易，2020年。1，20[3] Marco Bevilacqua, Aline Roumy, ChristineGuillemot和Marie LineAlberi-Morel。基于非负邻居嵌入的低复杂

下载后可阅读完整内容，剩余1页未读，立即下载