实用深盲图像超分辨率模型的设计与验证

10 浏览量更新于2023-10-13 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4791↓⊗一种实用的深盲图像超分辨率张凯1梁静云1LucVan Gool1，2RaduTimofte11瑞士苏黎世联邦理工学院计算机视觉实验室2比利时{kai.zhang，jinliang，vangool，timofter} @ vision.ee.ethz.chhttps://github.com/cszn/BSRGAN摘要人们普遍认为，如果假设的退化模型与真实图像中的退化模型存在偏差，尽管若干退化模型考虑了诸如模糊之类的附加因素，但是它们仍然不足以有效地覆盖真实图像的各种退化为了解决这个问题，本文提出设计一个更复杂但更实用的退化模型，该模型由随机混洗模糊、下采样和噪声退化组成。具体地说，模糊近似的两个卷积与各向同性和各向异性高斯内核;从最近的、双线性和双三次插值中随机选择下采样;通过添加具有不同噪声水平的高斯噪声、采用具有不同质量因子的JPEG压缩、以及经由反向-正向相机图像信号处理（ISP）流水线模型和RAW图像噪声模型生成处理后的相机传感器噪声来合成噪声。为了验证新退化模型的有效性，我们训练了一个深度盲ES-RGAN超分辨器，然后将其应用于超分辨具有不同退化的合成图像和真实图像。实验结果表明，新的退化模型可以显著提高深度超分辨器的实用性，为实际SISR应用提供了一种强有力的替代解决方案。1. 介绍单图像超分辨率（SISR），其目的是从低分辨率（LR）图像y重建自然和清晰详细的高分辨率（HR）对应物x[10，47]，最近由于其高实用价值而引起了极大的关注。随着深度神经网络（DNN）的发展，使用前馈DNN进行快速有效的SISR [17，23，25，27，49，61]的急剧增加本文对这一趋势做出了贡献。SISR方法将LR图像映射到HR对应物上，而退化模型定义如何将HR图像映射到LR图像。两种代表性降解模型是双三次降解[46]和传统降解[28，45]。前者通过双三次插值生成LR图像后者可以通过下式进行数学建模：y=（x k）↓s+ n。（一）它假设LR图像是通过首先将HR图像与高斯核（或点扩散函数）k[12]卷积以获得模糊图像Xk，然后是具有比例因子s的下采样操作s和具有标准偏差σ的高斯白噪声n的添加来获得的。具体地，双三次退化可以被视为传统退化的特殊情况，因为它可以通过设置具有零噪声的适当内核来近似[3，52]。退化模型通常由诸如模糊核和噪声水平的若干因素表征根据这些因素是否事先已知，基于DNNs的SISR方法可以大致分为非盲方法和盲方法。早期的非盲SISR方法主要设计用于双三次退化[10]。虽然已经实现了对PSNR [27，61]和感知质量[24，49]的显着值得注意的是，这也适用于使用生成对抗性损失训练的深度模型。原因是模糊核对于SISR方法的成功起着至关重要的作用[12]，而双三次核太简单了。为了弥补这一点，一些作品使用更复杂的退化模型，该模型涉及模糊核和加性高斯白噪声（AWGN）以及将模糊核和噪声水平作为条件输入的非盲网络[3，58]。与基于双三次退化的方法相比，这些方法往往更适用。然而，他们需要一个准确的估计内核和噪声水平。否则，性能严重恶化[12]。同时，只有少数方法是专门为4792SISR的核估计[3].作为进一步的步骤，一些盲方法提出将核估计融合到网络设计中[16，31]。但这样的方法仍然失败为大多数真实图像（如JPEG压缩图像）生成视觉上令人愉悦的结果。沿着使用未配对LR/HR训练数据的盲SISR工作的另一条线，首先从LR图像中提取核和噪声，然后用于从HR图像合成LR图像以进行配对训练[20]。值得注意的是，在没有核估计的情况下，盲模型仍然具有有希望的性能。另一方面，从真实图像中收集精确的模糊核和噪声模型是困难的。从以上讨论中，我们得出两个结论.首先，退化模型对于基于DNNs的SISR方法至关重要，并且更实用的退化模型值得研究。其次，没有现有的盲SISR模型容易适用于超分辨率的真实图像遭受不同的退化类型。因此，我们看到两个主要挑战：第一个是为真实图像设计一个更实用的SISR退化模型，第二个是学习一个有效的深度盲模型，该模型可以很好地适用于大多数真实图像。在本文中，我们试图解决这两个挑战。对于第一个挑战，我们认为，模糊，降采样和噪声是三个关键因素，有助于真实图像的退化。而不是利用高斯内核引起的模糊，双三次下采样，和简单的噪声模型，我们建议扩大这些因素中的每一个更实际的。具体地，模糊通过具有各向同性高斯核和各向异性高斯核的两个卷积来实现;下采样更一般，但包括常用的下尺度运算器，例如双线性和双三次插值;噪声由具有不同噪声水平的AWGN、具有不同质量因子的JPEG压缩噪声以及通过应用反向-正向相机图像信号处理（ISP）流水线模型和RAW图像噪声模型处理的相机传感器噪声来建模。此外，我们没有使用常用的模糊/下采样/噪声添加流水线，而是执行随机混洗降级来合成LR图像。因此，我们的新的退化模型涉及几个更多的可调参数，旨在覆盖真实图像的退化空间。对于第二个挑战，我们以端到端的监督方式基于新的退化模型训练深度模型。给定一幅高分辨率图像，通过设置退化模型的不同参数，可以合成不同的真实感低分辨率图像。因此，可以生成无限数量的配对LR/HR训练数据用于训练。特别值得注意的是，这样的训练数据不受未对准问题的影响。通过进一步利用DNN的强大表现力和高级训练的优势，深度盲模型有望为真实LR图像产生视觉上令人愉快的结果。本文的贡献是：1) 设计了一种实用的真实图像SISR退化模型它考虑了模糊、下采样和噪声的更复杂的降级，更重要的是，涉及降级洗牌策略。2) 使用我们的degra- dation模型生成的合成训练数据它在真实图像上表现得很好。3) 据我们所知，这是第一个工作，采用一个新的手工设计的退化模型，一般盲图像超分辨率。4) 我们的工作突出了准确的退化建模的重要性，实际应用的DNNs为基础的SISR方法。2. 相关工作由于本文的重点是设计一个实用的退化模型来训练深度盲DNN模型，因此接下来我们将简要概述相关的退化模型和深度盲SISR方法。2.1. 退化模型如引言中所提及的，现有的基于DNN的SISR方法通常基于双三次下采样[23，44]和传统的降级[26，37，54，59，59，59]。60]，或一些简单的变体[11，41，53，56，58]。可以发现，现有的复杂SISR退化模型通常由模糊、下采样和噪声添加的序列组成。为了数学上的方便，噪声通常被假设为AWGN，其很少与真实图像的噪声分布相匹配。实际上，噪声也可能源于相机传感器噪声和JPEG压缩噪声，其通常是信号相关的和非均匀的[42]。无论模糊是否准确建模，噪声失配足以导致性能下降时，超解析器应用于真实图像。换句话说，当涉及到真实图像退化的复杂性时，现有的退化模型是需要的。一些作品没有考虑明确的退化模型[29，51]。相反，它们使用训练数据来学习LR到HR映射，该映射仅适用于由训练图像定义的退化。2.2. 深盲SISR方法深度非盲SISR网络的设计和训练取得了重大成就。这就是说，将它们应用于盲SISR是一个重要的问题。应当注意，盲SISR方法主要被部署用于真实SISR应用。为此，尝试了不同的研究方向。4793第一个方向是初始估计给定LR图像的退化参数，然后应用非盲方法来获得HR结果。Bell-Kligler等人[3]提出在应用非盲ZSSR [45]和SRMD [58]方法之前经由内部GAN方法然而，非盲SISR方法通常对模糊核中的误差敏感，从而产生过尖锐或过平滑的结果。为了补救这一点，第二方向旨在联合估计模糊核和HR图像。Gu等人[16]提出迭代校正方案以交替地改进模糊核和HR结果。Cornillere等人[8]提出了一种用于联合模糊核和HR图像估计的优化过程，通过最小化由训练的核鉴别器预测的误差。Luo等人[31]提出了一种由内核估计器模块和HR图像恢复器模块组成的深度交替网络。虽然promis- ing，这些方法没有充分考虑到噪声，因此往往遭受不准确的内核估计噪声的真实图像。事实上，噪声的存在会加剧不适定性，特别是当噪声类型未知且复杂，并且噪声水平较高时。第三个方向是学习具有捕获的真实LR/HR对的监督模型Cai等人[7]和Weiet al. [50]分别建立了具有成对LR/HR相机图像的SISR数据集。然而，收集丰富的良好对齐的训练数据是麻烦的，并且学习的模型被约束到由捕获的LR图像定义的LR域。考虑到真实LR图像很少与地面真实HR一起出现的事实，第四个方向旨在使用未配对的训练数据进行学习[48]。Yuan等[51]提出一种循环中循环的框架，首先将有噪声和模糊的LR输入映射到干净的LR输入，然后通过预先训练的模型对中间 LR 图像进行超分辨Lugmayr等人[29]建议通过使用循环一致性损失来学习深度退化映射遵循类似的框架，Jiet al. [20]提出估计各种模糊核并从LR图像中提取不同的噪声图，然后应用传统的退化模型来合成不同的LR图像。值得注意的是，[20]是NTIRE 2020真实世界超分辨率挑战赛的获胜者[30]，这证明了准确降解建模的重要性。尽管将该方法应用于被更复杂的退化破坏的训练数据似乎是直接的，但是它也会降低模糊核和噪声估计的准确性，这反过来导致不可靠的合成LR图像。如上所述，现有的深度盲SISR方法主要在理想的退化设置或由LR训练数据定义的特定退化空间上作为结果，在假定的退化模型和真实的图像退化模型之间仍然存在失配此外，据我们所知，没有现有的深度盲SISR模型可以容易地应用于一般的真实图像超分辨率。因此，设计一个实用的退化模型来训练深度盲SISR模型以用于实际应用是值得的。注意，尽管去噪和去模糊与有噪声和模糊的图像超分辨率有关，但是大多数超分辨率方法在统一的而不是级联的框架中处理模糊、噪声和超分辨率（参见，例如，[11、12、20、28、29、30、43、45、51、52、56、58]）。3. 一种实用的退化模型在提供我们新的实用SISR退化模型之前，提及双三次和传统退化模型的以下事实是有用的：1. 根据传统的退化模型，有三个关键因素，即，模糊、下采样和噪声，它们影响真实图像的退化。2. 由于LR和HR图像两者可能是噪声和模糊的，因此不需要采用像在传统退化模型中那样的模糊/下采样/噪声添加流水线来生成LR图像。3. 传统退化模型的模糊核空间应跨尺度变化，使得在实践中难以确定非常大的尺度因子。4. 虽然双三次退化很少适合真实的LR图像，但它可以用于数据增强，确实是干净和锐利图像超分辨率的好选择受第一个事实的启发，提高退化模型实用性的一个直接方法是使三个关键因素的退化空间尽可能大和现实基于第二个事实，我们然后进一步扩大退化空间，采用随机洗牌策略的三个关键因素。这样，LR图像也可以是HR图像的噪声、下采样和模糊版本为了解决第三个事实，可以利用从小因子到大尺度因子的核的分析计算。可替代地，根据第四个事实，对于大的比例因子，可以在利用比例因子的降级之前应用双三次（或双线性）缩减。2.不失一般性，本文重点设计的退化模型，广泛使用的比例因子2和4。在下文中，我们将详细介绍以下方面的退化模型：模糊、下采样、噪声和随机混洗策略。4794× −× ×−联系我们××双线性向下向上3.1. 模糊模糊是一种常见的图像退化。我们建议从HR空间和LR空间对模糊进行建模。一方面，在传统的SISR退化模型[28，45]中，首先通过与模糊核的卷积来模糊HR图像。这种HR模糊实际上旨在防止混叠并在随后的下采样之后保留更多的空间信息。另一方面，真实的LR图像可能是模糊的，因此在LR空间中对这种模糊进行建模是可行的方式。通过进一步考虑高斯核满足SISR任务，我们执行两个高斯模糊操作，即，具有各向同性高斯核的Biso，3.3. 噪声噪声在真实图像中是普遍存在的，因为它可以由不同的源引起。除了广泛使用的高斯噪声，我们的新的退化模型还考虑JPEG压缩噪声和相机传感器噪声。我们接下来详细介绍三种噪声类型。高斯噪声当没有关于噪声的信息时，高斯噪声假设是最保守的选择[40]。为了合成高斯噪声，三维（3D）零均值高斯噪声模型采用具有协方差矩阵Σ的N（0，Σ）[39]等Baniso 具有各向异性高斯核[3，43，58]。注意噪声模型有两种特殊情况：当Σ=σ2I时，其中I是单位矩阵，它变成了广泛使用的信道-HR图像或LR图像可以通过两次模糊操作进行模糊3.4了解更多详情）。通过这样做，可以大大扩展模糊的劣化空间。对于模糊核设置，大小从7七、九9、，21页21，各向同性高斯核从[0. 一，二。4]和[0. 一，二。8]，而各向异性高斯内核从[0，π ]均匀地采样旋转角度，并且从[0，π]均匀地采样缩放因子2和4的每个轴的长度。5，6]和[0. 5、8]。采用反射填充以确保模糊输出的空间大小保持相同。由于宽度为0的各向同性高斯核。1对应于delta（identity）内核，我们总是可以应用两个模糊操作。3.2. 下采样为了对HR图像进行下采样，可能最直接的方式是最近邻插值。然而，所得LR图像将具有0的未对准。5（s1）像素朝向左上角[52]。作为补救措施，我们将中心21 - 21各向同性高斯内核由0。5（s-1）像素，并在最近邻下采样之前将其应用于卷积高斯核宽度从[0.1，0。6×s]。我们将这种下采样表示为独立的加性高斯白噪声（AWGN）模型，当λ=σ21，其中1是所有元素都等于1的3 3矩阵时，它就变成了广泛使用的灰度AWGN模型。在我们的新退化模型中，我们总是添加高斯噪声进行数据合成。特别地，应用一般情况和两种特殊情况的概率分别被设置为0.2、0.4、0.4 对于σ，从{1/255，2/255，···，2/255}均匀采样。JPEG压缩噪声NJPEG。JPEG是用于减少带宽和存储的最广泛使用的图像压缩标准。然而，它引入了令人讨厌的88块伪影/噪声，特别是对于高压缩的情况压缩程度由质量因子确定，该质量因子是范围[0，100]中的整数。品质因数为0意味着较低的质量和较高的压缩，而反之亦然。如果品质因数大于90，则不会引入明显的伪影。在我们的新退化模型中，JPEG质量因子统一选自[30，95]。由于JPEG是最流行的数字图像格式-垫，我们应用两个JPEG压缩步骤的可能性，关系0.75和1，分别。特别地，后者用作最终降解步骤。已处理摄像头传感器噪声NS。在现代数字照相机中，输出图像通过传递S最近 . 此外，我们还采用了双三次和双线性通过图像信号处理（ISP）的原始传感器数据下采样方法，用DsS双三渠道.在实践中，如果ISP管道不执行分别此外，一种上下采样方法Ds（=Ds/aDa），其首先对im-a进行下采样。在去噪步骤中，经处理的传感器噪声将通过引入非高斯噪声而劣化输出图像[42]。上下起来使用比例因子s/a进行老化，然后使用比例进行升级还采用因子A。这里的插值方法是从双线性和双三次插值中随机选择的，并且α是从[1/2，s]中采样的。显然，上述四种下采样方法在HR中具有模糊步骤。为了合成这种噪声，我们首先通过反向ISP流水线从RGB图像中获得原始原始图像噪声模型借用自[6]。根据空间，而Ds会引入放大引起的模糊Adobe Digital Negative（DNG）Specification [1]，我们的-在LR空间中，当a小于1时。我们不包括这种类型的模糊在秒。3.1，因为它们在下采样过程中耦合。我们对这四个下采样进行均匀采样以缩小HR图像。Ward ISP流水线包括去马赛克、曝光补偿、白平衡、相机到XYZ（D50）颜色空间转换、XYZ（D50）到线性RGB颜色空间转换、色调映射和伽马校正。用于演示-D和D、4795双线性D2BisoNGNJPEGBanisoLR双三D2BisoNJPEGBanisoNGNSLRBisoD3下来NGBanisoD2/3 起来NJPEG----{D下来×起来起来HR图1.比例因子2的拟定退化模型示意图。对于HR图像，随机混洗的退化序列Biso、Baniso、D2、NG、NJPEG、NS 首先执行JPEG压缩劣化，然后执行JPEG压缩劣化是ap-将LR图像保存为JPEG格式。具有比例因子2的缩减操作，即，D2，一致地选自 2 2 2 2{D最近，D双线性，D双三次，D下-上}。采用[34]中的方法SAICING，其与MATLAB的去马赛克功能相同对于曝光补偿，全局缩放从[2-0. 一，二十。3]。对于白平衡，红色增益和模糊增益是均匀的新的退化模型。具体而言，降级序列Biso、Baniso、Ds、NG、NJPEG、NS被随机混洗，这里Ds表示具有比例因子s的下采样操作，该比例因子s从以下随机选择选[1]。二，二。4]中。对于相机到XYZ（D50）颜色S最近S双线性S双三S向下向上{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}特别是，SE-在空间转换中，3× 3颜色校正矩阵是ForwardMatrix1和Ds/a的顺序DaS向下向上可以插入其他ForwardMatrix2从原始图像文件的元数据。对于色调映射，我们根据配对的原始图像文件和RGB输出为每个相机手动选择[14]中的最佳拟合色调曲线。我们使用五个数码相机，包括佳能EOS 5D Mark III和IV相机，华为P20，P30和Honor V8相机，以建立我们的ISP管道池。注意，色调曲线和前向颜色校正矩阵不一定来自同一相机。由于色调映射是不可逆的，并且会导致颜色偏移问题，因此应该对HR图像应用反向-正向色调映射。我们以0.25的概率应用该噪声合成步骤。3.4.随机洗牌退化注意，在[9]中提出了随机混洗策略的类似想法，然而，它被设计用于图像分类和对象检测，并且可以替代地用于增强HR图像。利用随机洗牌策略，可以大幅扩展退化空间。首先，其他退化模型，如双三次和传统的退化模型，以及[16，59]中提出的退化模型，都是我们的特例其次，通过两种模糊操作和四种下采样方法中的一种的不同布置来扩大模糊退化空间。第三，通过模糊和下采样可以改变噪声特性，从而扩展退化空间。例如，下采样可以降低噪声强度并使噪声（例如，处理相机传感器噪声和JPEG压缩虽然简单和数学上的方便，TRA-TRAB。噪声）较少的信号依赖性，而Da（a1）可以<传统的退化模型很难覆盖真实LR图像的退化空间。一方面，真实LR图像也可以是HR图像的噪声、模糊、下采样和JPEG压缩版本。另一方面，假设LR图像是HR图像的双三次下采样、模糊和噪声版本的退化模型也可以用于SISR [16，59]。因此，LR图像可能由于模糊、下采样和具有不同阶数的噪声而劣化因此，我们提出了一种随机洗牌策略使与信号无关的高斯噪声成为与信号相关的。这种噪声可能存在于真实图像中。图1示出了所提出的退化模型。对于HR图像，我们可以通过混洗退化操作和设置不同的退化参数来生成具有宽范围退化的不同LR图像。如第对于比例因子3，我们在比例因子2的降级之前以0.25的概率附加地应用双线性或双三次降尺度NJPEG降级洗牌得双曲余切值.得双曲余切值.得双曲余切值.对于D4796×4. 讨论有必要增加讨论，以进一步理解所提出的新退化模型。首先，退化模型主要设计用于合成退化LR图像。其最直接的应用是用成对的LR/HR图像训练深度盲超解析器。特别地，可以对HR图像的大数据集执行退化模型以产生无限的完全对准的训练图像，其通常不会遭受费力收集的配对数据的有限数据问题和未配对训练数据的未对准问题其次，退化模型往往不适合对退化LR图像建模，因为它涉及太多退化参数并且还采用随机混洗策略。第三，退化模型可以产生一些在现实世界场景中很少发生的退化情况，而这仍然可以预期提高训练的深度盲超解析器的泛化能力。第四，具有大容量的DNN具有经由单个模型处理不同降级的能力（参见，例如，[55]）。值得注意的是，即使当超解析器降低不切实际的双三次下采样的性能时，它仍然是真实SISR的优选选择。第五，可以通过改变退化参数设置和添加更合理的退化类型（例如，斑点噪声和未对齐的双JPEG压缩[21]），以提高某些应用的实用性。5. 深度盲SISR模型训练本文的新颖之处在于新的退化模型以及借用现有网络结构（如ESRGAN [49]）来训练深度盲模型的可能性。为了显示所提出的退化模型的优点，我们采用了广泛使用的ESR-GAN网络，并用新的退化模型产生的合成LR/HR配对图像来在ESRGAN之后，我们首先训练面向PSNR的BSRNet模型，然后训练面向感知质量的BSRGAN模型。由于面向PSNR的BSRNet模型由于逐像素平均问题[24]而倾向于产生过度平滑的结果，因此面向感知质量的模型对于实际应用是优选的[5]。因此，除非另有说明，否则我们更多地关注BSRGAN模型。与ESRGAN相比，BSRGAN在几个方面进行了修改首先，我们使用稍微不同的HR图像数据集，其包括DIV2K [2]，Flick2K [27，46]，WED [33]和来自FFHQ[22]的2，000个面部图像来捕获图像先验。这是因为BSRGAN的目标是解决通用盲图像超分辨率问题，除了退化先验外，图像先验也有助于超分辨率的成功我们还根据方差去除模糊图像图像的拉普拉斯算子。其次，BSRGAN使用更大的LR补丁大小为72 - 72。原因是我们的退化模型可以产生严重退化的LR图像，并且较大的补丁可以使深度模型能够捕获更多的信息以进行更好的恢复。第三，我们通过最小化L1损失、VGG感知损失和基于谱范数的最小二乘 PatchGAN 损失 [19] 的加权组合来训练BSRGAN，其中权重为1、1和0。1，分别。特别地，VGG感知损失在预训练的19层VGG模型的第四个而不是第五个最大池化层之前的第四个卷积上操作，因为它更稳定以防止色移问题。我们使用 Adam 训练BSRGAN，使用固定的学习率1×10-5，批量大小为48。6. 实验结果6.1. 测试数据集现有的盲SISR方法通常在专门设计的合成数据上进行评估，并且只有很少的真实图像。例如，在模糊的、双三次下采样的合成LR图像和两个真实图像上评估IKC [ 16 ];在合成DIV 2KRK数据集和两个真实图像上评估KernelGAN [ 3 ]。因此，据我们所知，仍然缺乏具有不同模糊和噪声退化的真实LR图像数据集。为了为盲SISR方法的评估铺平道路，我们建立了两个数据集，包括合成的DIV2K4D数据集和真实的RealSRSet，合成的DIV2K4D数据集包含四个子数据集，总共400幅图像是从100幅具有三种不同退化类型的DIV2K验证图像生成的，真实的RealSRSet由20幅真实图像组成，真实图像可以从互联网下载或直接从现有的图像中选择。测试数据集[18，35，36，57]。具体地，DIV2K4D的三种降解类型包括1）类型I：2）类型II：具有通过比例因子的最近下采样的各向异性高斯模糊。(a) 来自DIV2K4D的示例（b）来自RealSRSet的图2. DIV 2K 4D和Real- SRSet数据集的一些示例图像。从（a）的顶部到底部，我们示出了由降解类型II、III和IV生成的示例图像。4797×表1. DIV2K4D数据集上不同方法的PSNR和LPIPS结果。最佳和次佳结果分别以红色和蓝色突出显示。在YCbCr空间的Y通道上计算PSNR结果。降解类型度量RRDBIKCESRGANFSSR-DPEDFSSR-JPEGRealSR-DPEDRealSR-JPEGBSRNet（我们的）BSRGAN（我们的）I型（双立方）PSNRLPIPS30.890.25429.950.26328.160.11524.550.24022.710.36421.720.31227.350.21329.070.33127.300.236II型PSNRLPIPS25.660.54227.350.39225.560.52625.810.46025.330.39926.290.26325.360.47927.760.39726.260.284III型PSNRLPIPS26.700.51726.720.50426.210.43625.830.39223.250.37622.820.37926.720.36027.590.41926.280.284IV型PSNRLPIPS24.030.65924.010.64123.680.59923.620.58922.400.59722.970.52823.850.58925.670.50624.580.361PSNR↑/LPIPS↓23.51/0.601 23.21/0.35323.46/0.50425.48/0.353 24.65/0.233(a) LR（4）（b）IKC [16]（c）FSSR-JPEG [13]（d）RealSR-JPEG [20]（e）BSRNet（Ours）（f）BSRGAN（Ours）图3.不同方法对来自具有比例因子4的DIV2K4D数据集的LR图像进行超分辨的结果。测试图像通过我们提出的退化（即，降解类型IV）。4; 3）类型III：各向异性高斯模糊，具有通过比例因子2的最近下采样和随后通过另一比例因子2的双三次下采样，以及具有从[41，90]均匀采样的质量因子的最终JPEG压缩;以及4）类型IV：我们提出的退化模型。注意，具有退化类型II的子数据集和具有退化类型III的子数据集的比例因子为 2 的下采样图像直接从DIV2KRK数据集借用[3]。来自两个数据集的一些示例图像如图所示。2，从中我们可以看到LR图像被各种模糊和噪声退化所破坏。我们认为，一个通用的盲超解析器应该实现一个良好的整体性能的两个数据集。6.2. 比较方法我们将建议的BSRNet和BSRGAN与 RRDB [49]，IKC [16]， ESRGAN [49]，FSSR-DPED [13]、FSSR-JPEG [13]、RealSR-DPED [20]和RealSR-JPEG [20].具体地，RRDB和ESRGAN是在双三次退化上训练的; IKC是用不同的各向同性高斯核训练的盲模型; FSSR-DPED和RealSR-DPED被训练以最大化在模糊和有噪声的DPED数据集上的性能;训练FSSR-JPEG实现JPEG图像超分辨率; RealSR-JPEG是github上最近发布的未发布模型。注意，由于我们的新颖性在于退化模型，因此RRDB、ESRGAN、FSSR-DPED、FSSR-JPEG、RealSR-DPED和RealSR-JPEG使用与我们相同的网络架构，因此我们没有重新训练其他模型进行比较。6.3. DIV2K4D数据集在DIV2K4D数据集上的不同方法的PSNR和LPIPS（学习的感知图像块相似性）结果在表1中示出。注意，LPIPS用于测量感知质量，并且较低的LPIPS值意味着超分辨率图像在感知上更类似于地面实况。我们从表1中得出几个结论。首先，如所预期的，RRDB和ESRGAN对于双三次退化表现良好，但对于非双三次退化表现不佳，因为它们是用简化的双三次退化训练的。值得注意的是，即使用GAN训练，ESRGAN也可以在降级类型II-IV上略微改善LPIPS值超过RRDB。其次， FSSR-DPED 、 FSSR-JPEG 、 RealSR-DPED 和RealSR-JPEG在LPIPS方面优于RRDB和ESRGAN，因为它们考虑了更实际的降级。第三，对于退化类型II，IKC获得了有希望的PSNR结果，而RealSR-DPED获得了最佳的LPIPS结果，因为它们是在类似的退化上训练的。对于降解类型III和IV，它们遭受严重的性能下降。第四，我们提出的BSRNet实现了最好的整体PSNR结果，而BSRGAN产生了最好的整体LPIPS结果。图3示出了对来自DIV2K4D数据集的LR图像进行超分辨的不同方法的结果。可以看出，IKC和RealSR-JPEG无法去除噪声并恢复尖锐边缘。另一方面，FSSR-JPEG可以产生清晰的图像，但也引入了一些伪影。相比之下，我们的BSRNet和BSRGAN产生更好的视觉效果比其他方法。4798NIQE↓/NRQM↑/PI↓4.47/3.15/5.654.19/7.08/3.553.12/6.81/3.153.89/4.39/4.754.52/5.79/4.36NIQE↓/NRQM↑/PI↓5.85/4.66/5.594.16/7.98/3.094.64/6.56/4.046.95/4.32/6.315.07/7.44/3.82NIQE↓/NRQM↑/PI↓7.10/3.92/6.595.31/6.26/4.526.39/6.83/4.784.45/7.14/3.655.83/5.99/4.92(a) LR（×4）（b）ESRGAN [49]（c）FSSR-JPEG [13]（d）RealSR-DPED [20](e) RealSR-JPEG [20]（f）BSRGAN（我们的）图4。不同方法对比例因子为4的RealSRSet的超分辨率真实图像的结果。每一行中从上到下的LR图像分别是请放大以便更好地查看。6.4. 在RealSRSet数据集由于RealSRSet数据集的真实数据不可用，我们采用非参考图像质量评估（IQA）指标（包括NIQE [38]、NRQM [32]和PI [4]）进行定量评价。从表2可以看出，BSRGAN未能显示出有希望的结果。如图所示。4、BSRNet的可视化效果明显优于其他方法。例如，BSRGAN可以去除“建筑物”的未知的经处理的相机传感器噪声FSSR-JPEG、RealSR-DPED和RealSR-JPEG产生一些高频伪影，但比BSRNet具有更好的定量结果。这种不一致性表明这些无参考IQA度量并不总是与感知视觉质量匹配[30]，并且IQA度量可以用新的SISR方法更新[15]。我们进一步认为，IQA度量SISR也应该更新新的图像退化类型，我们留给未来的工作。我们注意到我们的BSRGAN倾向于在纹理区域中产生7. 结论在本文中，我们设计了一个新的退化模型来训练深度盲超分辨率模型。具体地说，表2. RealSRSet数据集上不同方法的无参考NIQE [38]、NRQM [32]和PI [4]结果。最佳和次佳结果分别以红色和蓝色突出显示。请注意，所有方法都使用相同的网络架构。度量ESRGANFSSR-DPEDFSSR-JPEGRealSR-DPEDRealSR-JPEGBSRGAN（我们的）NIQE↓NRQM↑PI↓4.956.024.474.866.284.294.046.883.584.586.593.993.996.234.295.606.174.72通过使每个退化因子，即，模糊、下采样和噪声，更加复杂和实用，并且还通过引入随机混洗策略，新的退化模型可以覆盖在真实世界场景中发现的广泛的退化。基于新的退化模型生成的合成数据，我们训练了一个用于一般图像超分辨率的深度盲模型。在合成图像和真实图像数据集上的实验表明，深度盲模型在由各种退化破坏的图像上表现良好我们相信，现有的深度超分辨率网络可以受益于我们的新退化模型，以提高其在实践中的实用性。因此，这项工作提供了一种解决盲超分辨率的实际应用。鸣谢：本工作部分得到了ETHZuürichFund（OK）、Hua weiTechnologiesOy （ Fin-land ）项目和 AmazonAWS赠款的支持4799引用[1] Adobe数字负片规格。2019.版本1.5.00。4[2] Eirikur Agustsson和Radu Timofte。 Ntire 2017挑战赛单图像超分辨率：数据集和研究。在CVPR研讨会，第3卷，第126-135页，2017年7月。6[3] Sefi Bell-Kligler、Assaf Shocher和Michal Irani。使用内部增益的盲超分辨率核估计。在NeurIPS，第284-293页，2019年。一二三四六七[4] Yochai Blau ， Roey Mechrez ， Radu Timofte ， TomerMichaeli，和里希·泽尔尼克庄园2018年PIRM感知图像超分辨率挑战赛。在ECCV研讨会，2018年。8[5] 约柴·布劳和托莫·麦克利。知觉失真权衡在CVPR中，第6228-6237页，2018年。6[6] Tim Brooks ， Ben Mildenhall ， Tianfan Xue ， JiawenChen，Dillon Sharlet，and Jonathan T Barron.不处理图像以进行学习的原始去噪。在CVPR中，第11036-11045页，2019年。4[7] 蔡建瑞，曾辉，洪伟勇，曹子生，雷张某迈向真实世界的单幅图像超分辨率：新标杆、新模式。在ICCV，第3086- 3095页，2019年。3[8] Victor Cornillere ， Abdelaziz Djelouah ， Wang Yifan ，OlgaSorkine-Hornung和Christopher Schroers。具有空间变化退化的盲图像超分辨率。ACM TOG，38（6）：1-13，2019。3[9] Ekin D Cubuk、Barret Zoph、Jonathon Shlens和Quoc V乐随机扩增：实用的自动化数据扩充，减少搜索空间。在CVPR研讨会，第702-703页，2020年。5[10] Chao Dong，Chen Change Loy，Kaiming He，andXiaoou唐学习用于图像超分辨率的深度卷积网络。在ECCV，第184-199页，2014中。1[11] 董伟胜：张磊：石光明，和辛李图像恢复的非局部集中稀疏表示。IEEE TIP，22（4）：1620-1630，2013. 二、三[12] Netalee Efrat，Daniel Glasner，Alexander Apartsin，BoazNadler和Anat Levin。精确的模糊模型与单个图像超分辨率中的图像在ICCV，第2832- 2839页，2013中。第1、3条[13] 曼纽尔·弗里奇、古书航、拉杜·提莫夫特。频率现实世界的超分辨率分离。在ICCV Work-shop，第3599-3608页，2019年。七、八[14] Michael D Grossberg和Shree K Nayar。什么是空间相机响应功能？在CVPR，第II5[15] Jinjin Gu，Haoming Cai，Haoyu Chen，Xiaoxing Ye，Jimmy任朝东。Pipal：用于感知图像恢复的大规模图像质量评估数据集。ECCV，2020年。8[16] 顾金金、韩南路、左王梦、朝东。基于迭代核校正的盲超分辨率算法在CVPR，第1604-1613页，2019年。二三五六七[17] Zheng Hui ， Xinbo Gao ， Yunchu Yang ， and XiumeiWang.轻量级图像超分辨率与信息多蒸馏网络。在ICME，第2024-2032页，2019年。1[18] Andrey Ignatov ， Nikolay Kobyshev ， Radu Timofte ，KennethVanhoey和Luc Van Gool。数码单反品质的照片在mo-深度卷积网络的胆汁设备。在ICCV，第3277-3285页，2017年。6[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR中，第1125-1134页，2017年。6[20] Jiaozhong Ji，Yun Cao，Ying Tai，Chengjie Wang，JilinLi，和黄飞跃。通过核估计和噪声注入实现现实世界的超分辨率。在CVPR研讨会，第466-467页，2020年。二三七八[21] Jiaxi Jiang，Ka

下载后可阅读完整内容，剩余1页未读，立即下载