盲图像超分辨率中基于流的归一化内核先验（FKP）的研究

141 浏览量更新于2024-01-22 收藏 883KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10601基于流的核先验及其在盲超分辨中的梁静云1张凯1顾书航1LucVan Gool13Radu Zurich11瑞士苏黎世联邦理工学院计算机视觉实验室2澳大利亚悉尼大学3比利时鲁汶大学{jinliang，kai.zhang，vangool，timofter}@shuhanggu@gmail.com vision.ee.ethz.chhttps://github.com/JingyunLiang/FKP摘要核估计通常是盲图像超分辨率的关键问题之一。最近，Double- DIP提出通过网络架构先验来对内核进行建模，而KernelGAN则采用深度线性网络和几种正则化损失来约束内核空间。然而，他们未能充分利用一般SR内核的假设，各向异性高斯内核是足够的图像SR。为了解决这个问题，本文提出了一个归一化的基于流的内核先验（FKP）的内核建模。通过学习各向异性高斯核分布和易处理的潜在分布之间的可逆映射， FKP 可以很容易地用于替换 Double-DIP 和KernelGAN的核建模模块具体而言，FKP在潜空间而不是网络参数空间优化核，这使得它能够生成合理的核初始化，遍历学习的核流形，提高优化的稳定性。在合成图像和真实图像上的大量实验表明，所提出的FKP可以显著提高核估计的精度，具有更少的参数，运行时间和内存使用，导致最先进的盲SR结果。1. 介绍图像超分辨率（SR）是一种基本的低层次视觉任务，其目标是从低分辨率（LR）输入中恢复高分辨率（HR）图像。与随着卷积神经网络（CNN）的发展，基于CNN的方法[10，19，25，30，38，47，56]在解决图像SR方面已经越来越受欢迎然而，大多数现有的工作假设模糊核是固定的和已知的（例如，双三次下采样内核），这往往会导致实际应用中的性能急剧下降。因此，旨在处理未知模糊的盲图像SR*通讯作者。内核正在成为一个活跃的研究课题。与非盲SR相比，盲SR通常需要额外估计模糊核，因此更不适定。一个流行的工作路线试图将盲SR分解为两个子问题，即，核估计和非盲随机共振。作为非盲随机共振的初步步骤，核-NEL估计起着至关重要的作用。如果估计的核偏离地面实况，则通过非盲SR方法重建的HR图像将严重恶化[11，17，50]。鉴于此，本文重点研究了超分辨率核估计问题。最近，一些核估计方法，如Double-DIP [15，39]和KernelGAN [3]，已经显示出有希望的结果。具体而言，通过两个深度图像先验（DIP）[44]，双DIP可用于通过最小化LR图像重建误差来联合优化未经训练的编码器-解码器网络的参数空间中的HR图像和模糊核。虽然DIP已被证明是有效的建模自然图像，它是否是有效的模型模糊核或没有仍然不清楚。其主要原因是模糊核通常具有较小的空间尺寸，并且具有不同于自然图像的自身特性。在[39]中，使用全连接网络（FCN）来建模内核先验，然而，它缺乏可解释性。通过与Double-DIP不同的框架，KernelGAN基于图像补丁递归属性为LR图像设计了一个内部生成对抗网络（GAN）[16，35，57]。它通过一个深度线性网络来定义核函数，该网络通过GAN损失和五个额外的正则化损失（如稀疏性损失）进行优化。显然，这两种方法没有充分利用各向异性高斯核先验，而高斯核先验已被证明对真实图像SR足够有效[11，40，50，54，55]。在本文中，我们提出了一个基于流的核先验（FKP）的核分布建模，并将其纳入前盲SR模型。基于规范化流程，FKP由若干批规范化层、置换层和仿射耦合层组成，10602×↓ǁ − ⊗ ↓ ǁ为了通过学习核空间和潜在空间之间的可逆映射来捕获核分布（例如，高维高斯）。通过最小化核的负对数似然损失，以无监督的方式优化FKP。一旦训练好，它可以被并入现有的盲SR模型，如Double-DIP和Kernel-GAN用于核估计，其中FKP固定其参数并优化网络输入空间中的潜在变量。具体来说，对于双DIP，我们通过最小化LR图像重建误差来联合优化用于HR图像估计的 DIP 和用于核估计的 FKP 对于 Ker-nelGAN，我们使用FKP估计的内核而不是使用深度线性网络来模糊LR图像，然后通过对抗训练对其进行优化。使用FKP作为内核先验提供了几个优点：1) 更少的参数。FKP模型只有143 K参数，而Double-DIP和KernelGAN分别涉及641 K和151 K用于内核建模。2）更稳定的收敛性。一方面，与使用随机噪声输入的Double-DIP和使用随机网络参数进行内核初始化的KernelGAN不同，FKP可以显式地初始化合理的内核，因为它是双射函数。另一方面，在模型优化期间，内核被隐式地约束在学习的内核流形3)更好的核估计。利用学习的核先验，可以提高几种现有的盲SR方法（例如，Double-DIP和KernelGAN）的核估计精度。主要贡献概述如下：1) 我们提出了一个核先验名为FKP，适用于任意模糊核建模。它学习内核和潜在变量之间的双射映射据我们所知，FKP是第一个基于学习的内核先验。2) 通过固定参数和优化隐变量，FKP遍历学习的核流形并搜索核预测，确保初始化和沿优化的核是合理的。3) FKP具有更少的参数、运行时间和内存使用，2. 相关工作核估计在深度学习时代之前，传统的核估计方法通常利用图像块或边缘的先验信息[2，21，35，41，46]。在深度学习时代，Gandelsmanet al. [15]提出了基于深度图像先验（DIP）的双DIP [44]，其使用具有跳过连接的未经训练的编码器-解码器网络作为图像先验，用于图像去雾、图像去卷积、透明度分离等。同样，Renetal. [39]提出了一种全连接网络（FCN）作为图像去卷积的核先验。然而，这一思想是否适用于盲SR核估计仍然是未知的。一个开放的问题，因为盲SR由于下采样而严重不适定。与上述方法不同，Kligleret al. [3]提出KernelGAN基于图像块递归属性估计内核[16，35，57]。他们使用深度线性网络作为生成器来从LR图像生成重新缩小的图像，并使用一个递归来确保跨尺度补丁相似性。模糊核来自生成器。Gu等人[17]提出了一种预测和校正策略来交替估计核和HR图像。但该方法对训练HR-LR图像对的依赖性很强，且只估计核的特征。正常化流量。规范化流[8，9，22，24，28，29，32，37]是可逆的生成模型，将复杂的数据分布变形为简单易处理的分布。Dinh等人[8]建议将非线性加性耦合和其他转换层堆叠为流模型NICE。受NICE的启发，Dinhet al.[9]提出了RealNVP，它将加法耦合升级为仿射耦合，而不损失可逆性，并实现了更好的性能。之后，Kingmaet al. [28]提出了 11 卷积来取代RealNVP中的固定排列层，并成功地合成了逼真的图像。规范化流也已成功应用于生成其他类型的数据，例如音频数据[26]和点云数据[51]。3. 基于流的核先验通常，图像SR的经典退化模型[12，13，31]假设LR图像y是经由从HR图像x的模糊和下采样的合成而获得的。在数学上，它被公式化为：y=（xk）↓s+n，（1）其中，x =k表示x和模糊核k之间的卷积，s表示具有比例因子s的下采样操作，并且n是噪声。特别地，盲SR [3，17，21，44]旨在估计HR图像和模糊核同步根据最大后验概率(MAP)框架，它可以被解决为x，k= arg miny−（xk）↓s2+λ Φ（x）+γ（k），（二）其中y（x k）s2是数据保真度项，Φ（x）表示图像先验，λ（k）表示核先验，λ和γ是权衡参数。已经充分研究了较差的核估计会导致HR图像估计的严重性能下降[11，17，55]。然而，虽然已经提出了各种图像先验来描述自然图像统计[5，6，7，20，36，44]，但很少注意设计核先验。x，k10603θ√→θ克θ联系我们..θKθθ..···G Kθ，θ流程单元图1：基于流的内核先验（FKP）网络的示意图FKP通过几个流程块学习核k和潜在变量zk之间的可逆映射，每个流程块都是一系列的批归一化，置换和仿射变换层。鉴于此，本文提出了一种基于归一化流的核先验学习方法。形式上，设k∈K表示图2：通过从基于流的核先验（FKP）的潜在空间中随机采样生成的不同核样本在这里，FKP是在比例因子为4的各向异性高斯内核上训练的初始化和缓慢更新内核，FKP沿着学习的内核流形移动，并在z k更新期间生成可靠的k内核f−1（zk）。此外，当z k服从多元高斯分布时，分布的大部分m作为s靠近半径为D的球体的表面[34，45]，其中D是z k的维数。因此我们通过限制其Eu-核变量和zk∈Z表示相应的在每次更新之后，CLIDean范数为潜变量k和zk服从概率分布pK和pZ。我们定义了一个带参数θ的双射fθ：KZ. 对于核k，它可以被编码为潜在空间中的潜在变量zk=fθ（k）。因此，k可以通过逆映射精确地重建：k=f−1（zk）。根据变量公式[8]的变化，k的概率计算为优化整个潜在空间。4. 将FKP转换为双DIP4.1. 原始双DIPDIP [44]是随机初始化的编码器-解码器网络G形式的图像先验，其中，..工作结构捕获低级图像统计。通过opti-.pK（k）= pZ（fθ（k））. det（θ（k）.）的。、（3）最小网络参数θG，看起来自然的图像x=.好吧其中fθ（k）是fθ在k处的雅可比矩阵。一般来说，pZ是一个简单易处理的分布，如多元高斯分布。 fθ通常由一系列可逆和易处理的变换组成：fθ= f 1 fN ，并且我们有 hn= f n （ hn−1 ），其中 n1、......、N.在-fθ的输入和输出h0和hN分别为k和zk，在极大似然估计下，θ可以优化通过最小化负对数似然（NLL）损失G（zx;θG）是由固定的随机噪声输入zx重建的. 为了对不同的图像分量进行建模，Double-DIP [15]将两个DIP耦合用于图像分解任务例如图像分割。通过用全连接网络（FCN）替换一个DIP，该框架也被用于图像去卷积[39]。如果双DIP及其变体用于盲SR，则它们可以公式化为：<$θ，θ′=argmin<$y−（G（zx;θG）<$K′（zk;θK′））↓s<$2GK′x你好fn（hθG Kn−1）。′L（k;θ）=− logpZ（fθ（k））−n=1log. det（n−1）的。 .（四）其中（zk;θK′）是基于未训练神经元的核先验例如DIP和FCN。在训练中，随机噪声输入zx和zk是固定的，而随机初始化更具体地说，我们通过堆叠可逆的流动层如图1所示，它由几个流程块组成，每个块包括三个连续的层：批量归一化层，置换层和仿射变换层[9]。对于仿射变换层，我们使用小型全连接神经网络（FCN）进行缩放和移位，其中每个FCN交替堆叠全连接层和双曲正切激活层FKP是通过给定训练核样本的NLL损失来训练的。当它被插入到现有的核估计模型作为核先验时，我们首先随机采样潜在变量zk，其对应于如图2所示的随机核。然后，我们固定模型参数，并更新zk的梯度反向传播核估计损失的指导下。而不是从随机开始优化网络参数θG和θK′，LR图像重建误差。然而，将上述双DIP框架应用于盲SR核估计是不平凡的。一方面，与图像不同，核在空间上很小，并且没有自然的图像属性，例如自相似性。设计基于卷积层或全连接层的类DIP网络然后使用网络架构作为核先验可能不是好的选择。另一方面，由于下采样操作，盲SR与其他图像恢复任务相比是极其不适定的。由未经训练的网络并入的知识可能不足以同时估计HR图像和内核。正如实验中所示，未经训练的神经网络无法生成合理的核估计。zKK仿射变换置换批次标准10604KGGDGRGEURRGKKGkθ，zLRLR，↓s损失补偿图3：DIP-FKP的示意图。DIP从zx估计SR图像G（zx;θG），而FKP从zk估计核G（zx;θG）。s和↓s分别表示具有比例因子s的该模型通过最小化LR图像重建误差。4.2. 拟议DIP FKP我们建议将FKP纳入双DIP框架，而不是使用类似DIP的未经训练的网络作为核HR图像和核被联合估计为θx哪里（zk;θK）是结合的FK P。相应的示意图如图所示。3 .第三章。在DIP-FKP中，我们优化内核潜在变量zk，而不是网络参数θK，因为它已经建模了内核先验，所以它是固定的。更具体地说，在前进FKP生成一个核预测K（zk;θK）图4：KernelGAN-FKP的示意图。核K（zk;θK）由FKP生成，然后用于从LR图像生成重新缩减的LR（RLR）图像。 s和↓s分别表示使用比例因子s的模糊和下采样。该模型类似于GAN进行优化：FKP试图欺骗鉴别器D，使其相信从LR图像中提取的图像块preal和从RLR图像中提取的图像块pfake共享相同的分布。当LR图像用模糊核降级以获得再降尺度的低分辨率（RLR）图像时，HR和LR图像之间的核使LR和RLR图像之间的内部块分布相似性最大化。根据这一观察，KernelGAN [3]在单个LR图像上训练内部生成对抗网络（GAN），以估计模糊核。它包括一个深度线性生成器，通过几个可学习的卷积层和一个可区分LR和RLR图像的补丁分布的卷积器来缩小LR图像。模糊核是从每个迭代形式上，KernelGAN被优化为为了使由DIP产生的SR图像G（zx;θG）模糊，.22ΣθG，θD= arg min max （D（p）−1）+（D（G（p）+R以获得LR图像预测。均方呃-LR预测和LR图像之间的误差被用作损失函数。在反向传播中，θGθDk（七）从损失函数反向传播到核预测，然后到潜在变量zk。通过FKP，DIP-FKP将核先验嵌入到网络中，通过沿着学习的内核流形移动内核预测，可以有效地工作，这可以实现准确和稳定的内核估计。因此，DIP-FKP无需大量的训练数据和较长的训练时间，可以在测试阶段同时估计SR图像和模糊核。值得注意的是，虽然DIP-FKP能够准确地估计内核，但由于它是自监督的，因此它在SR图像重建上的性能有限。出于这个原因，我们使用非盲模型USRNet [53]来生成基于核估计的最终SR结果。5. 将FKP转换为KernelGAN5.1. 原始KernelGAN在单个图像中，小的图像块倾向于在不同尺度上重现[16，57]。在[35]中进一步观察到其中p是从LR图像随机提取的块y，即，p补丁（y），并且表示内核k上的额外正则化。更具体地，包括k与双三次内核之间的均方误差，以及对内核像素和的其他正则化约束，ary，sparsity和centrality。然而，KernelGAN的性能并不稳定。它也承受着的超参数选择，由于多个正则化项。5.2. 建议的KernelGAN FKPKernelGAN的不稳定性可能来自于某些图像的弱斑块分布，即，存在多个内核，其可以生成具有与LR图像相似的块分布的RLR图像。在这种情况下，判别器无法区分不同的补丁分布，从而导致错误的内核预测。为了解决这个问题，我们建议将所提出的FKP纳入KernelGAN，以约束优化Zx烫G（zx;θG）FKPzKK（zk;θK）p-实边补片D房RLR假FKPp伪随机补丁zKK（zk;θK），↓s10605K×联系我们K空间我们将这种方法称为KernelGAN-FKP，其可以公式化为：DIP-FKP。DIP架构与[44]中相同。该模型由Adam优化器优化为1，000迭代，z= arg minmax.（D（p）−1）2其中β1= 0。9，β2= 0。999. 学习率为FKP和DIP分别设置为0.1和0.005克·DzkθD+（D（（p<$K（zk;θK））↓s））2（八）KernelGAN-FKP。尺寸为64× 64的小块-k∗=K(z∗;θ)如图4所示，KernelGAN-FKP直接从潜在变量zk生成内核，并使用它来降低LR图像，而不是使用深度线性网络。在优化中，zk被优化以欺骗CPU，这等于在内核空间中遍历这约束了生成器的优化空间并确保了内核生成质量，即使没有额外的正则化项，这也允许比原始KernelGAN更稳定的收敛与DIP-FKP类似，我们采用US-RNet [53]进行核预测后的非盲SR。6. 实验6.1. 实验装置数据准备由于真实LR图像的模糊核通常是单峰的[35，41]，并且通常可以虽然可以用高斯模型[40]建模，但大多数现有的盲SR工作[3，17，21，40，42，43，49，54，55]假设SR内核是各向同性或各向异性高斯内核。根据这一广泛采用的假设，我们对各向异性高斯核进行了实验，即使FKP是以无监督的方式训练的，并且可以用于对给定核样本的任意核估计进行建模。对于比例因子 S 2，3，4，内核大小和宽度范围被设置为（4 s+3）（4 s+3）和[0. 175秒，2。5s]，分别。对于所有s，旋转角度范围为[0，π]。我们使用随机内核对图像进行模糊和下采样，以基于Set5 [4]，Set14[52]，BSD 100 [33]，Urban100 [23]和DIV2K [1]的验证集生成测试集在Kernel-GAN [3]和USRNet [53]之后，模糊核被移位，并且左上角的像素被保持在下采样中以避免子像素未对准。为了进行评估，我们通过PSNR比较内核，并通过YCbCr空间中Y通道上的PSNR和SSIM [48]比较SR图像FKP。由于FKP是一个双射，潜在变量dimen- sion，FCN的输入和输出尺寸是相同的内核大小。为了捕获内核变化，对于比例因子s，FCN隐藏层的维度被设置为5（s+1）。流块的总数和FCN深度分别设置为5和3我们随机生成各向异性高斯核作为训练数据，并使用Adam优化器[27]优化模型50，000次迭代。批量大小和学习率分别设置为100和1 e-4。由于页数限制，FKP的消融研究在补充材料中提供。用于 GAN 训练的LR 图像的 domly 裁剪。我们使用WGAN-GP损失[18]并将梯度惩罚设置为0.1增加训练稳定性。学习率为5e-4，批量大小为64。对于比例因子2和4，我们分别通过β 1 = 0的Adam优化器训练模型1，000和4，000次迭代。β2=0。999.6.2. DIP FKP6.2.1定量结果与最先进技术的比较。不同方法的平均PSNR和SSIM结果如表1所示。我们将提出的DIP-FKP与双三次插值，RCAN [56]，DIP [44]，双DIP [15，39]和上限模型（非盲USRNet [53]给定地面真实内核）进行比较。具体来说，RCAN是面向双三次随机共振的代表性模型之一。当核偏离预定义的双三次核时，其性能严重恶化。Double-DIP试图通过将未经训练的全连接网络（FCN）作为内核先验来纠正内核不匹配。然而，它的性能并不令人满意，比没有核先验的DIP差相比之下，DIP-FKP将FKP作为内核先验，并在所有数据集和比例因子上显著提高DIP的性能。在将DIP-FKP的估计核应用于非盲SR之后，由于精确的核估计，性能可以进一步提高。与其他Kernel Prior的比较表2给出了使用不同核先验时的核PSNR和图像PSNR/SSIM（非盲SR前后）的结果。“DIP+Softmax”使用Softmax层作为内核先验，用于满足内核上的非负和和一约束。然而，这样一个简单的内核先验会导致性能低下。 Double-DIP 在Softmax层之前增加了两个全连接层，但其性能仍然不令人满意。这实际上与我们在SEC中的分析一致。4.1未经训练的网络可能不是一个好的核先验。对于高斯核的特殊情况正如我们所看到的，在非盲SR之前，使用FKP实现了与使用参数先验相似的图像PSNR这是因为生成图像的质量在很大程度上取决于DIP。然而，FKP在核估计方面明显优于参数先验，这导致非盲SR后更好的图像PSNR。值得指出的是，与参数先验不同，FKP可以10606表1：不同方法在各种数据集上的平均PSNR/SSIM。请注意，由于GPU内存限制，我们裁剪960×960核估计中DIV2K的中心图像块最佳和次佳结果分别以红色和蓝色突出显示方法规模第五集[4]第14集[52]BSD100 [33]城市100 [23]DIV2K [1]双三次插值×226.58/0.801024.85/0.693925.19/0.663322.35/0.650326.97/0.7665RCAN [56]×226.80/0.800424.83/0.694525.21/0.661922.30/0.649926.99/0.7666中文（简体）×226.82/0.751825.40/0.686824.71/0.650823.29/0.6749-双DIP [15]×224.71/0.642322.21/0.562623.31/0/568121.03/0.5701-DIP-FKP（我们的）×230.16/0.863727.06/0.742126.72/0.708924.33/0.7069-[53]第53话：我的世界×232.34/0.930828.18/0.808828.61/0.820626.46/0.820330.13/0.8686GT + USRNet [53]（上限）×236.37/0.950832.56/0.894531.34/0.877229.97/0.895434.59/0.9268双三次插值×323.38/0.683622.47/0.588423.17/0.562520.37/0.537824.50/0.6806RCAN [56]×323.56/0.680222.31/0.580123.04/0.550620.14/0.524724.32/0.6712中文（简体）×328.14/0.768725.19/0.658125.25/0.640823.22/0.6512-双DIP [15]×323.21/0.653520.20/0.507120.38/0.449919.61/0.4993-DIP-FKP（我们的）×328.82/0.820226.27/0.692225.96/0.666023.47/0.6588-[53]第53话：我的世界×330.78/0.884027.76/0.775027.29/0.748424.84/0.751029.03/0.8354GT + USRNet [53]（上限）×333.95/0.919929.91/0.828328.82/0.793527.22/0.827431.79/0.8754双三次插值×421.70/0.619820.86/0.518121.95/0.509719.13/0.472923.01/0.6282RCAN [56]×421.86/0.617420.37/0.494021.71/0.493518.60/0.446522.69/0.6128中文（简体）×427.34/0.746525.03/0.637124.92/0.603022.55/0.6128-双DIP [15]×420.99/0.557818.31/0.442618.57/0.381518.15/0.4491-DIP-FKP（我们的）×427.77/0.791425.65/0.676425.15/0.635422.89/0.6327-[53]第53话：我的世界×429.29/0.850826.70/0.738325.97/0.690223.89/0.707827.44/0.7859GT + USRNet [53]（上限）×431.91/0.889428.30/0.774227.33/0.727725.47/0.763529.99/0.8272无地面实况（真实图像）峰值信噪比（dB）20.76/20.33/-23.43/28.42/-22.41/17.99/-20.48/16.69/-25.74/31.23/-26.11/33.79/-LR（×4）RCAN [56] DIP [44]+Softmax+ [53]第五十三话双DIP [15，39]+ [53]第五十三话DIP-FKP（我们的）+ [53]第五十三话[53]第五十三话图5：比例因子为4的合成和真实世界图像上不同方法的视觉结果。估计/地面实况内核显示在图像的右上角。补充资料中提供了更多的视觉结果用于对任意内核分布进行建模，因为它是以无监督的方式训练的。对非高斯核和图像的鲁棒性噪声我们将噪声添加到核和LR图像中，以分别测试模型对非高斯核和图像噪声的鲁棒性对于非高斯核，我们应用均匀的乘性噪声（最大核像素值的40%，即，0.4)然后将其归一化以满足和为一的约束。对于图像噪声，我们将10级噪声（最大图像像素值的3.92%）添加到图像经过模糊和下采样。从表2可以看出，即使在严重的内核损坏下，DIP-FKP仍然产生相当的结果，对非高斯内核表现出良好的当图像被噪声破坏时，DIP-FKP的性能会有适度的下降，但它仍然比竞争对手有很大的优势。在这种情况下，我们认为，核估计性能主要是由DIP限制，而不是建议的FKP。模型参数、运行时和内存使用。 DIP-FKP中核先验的参数总数10607×表2：使用不同核先验的平均PSNR/SSIM当比例因子为2时，在BSD 100 [33]上进行实验。非高斯核和图像噪声的结果也提供。表3：DIV 2K上不同方法的平均PSNR/SSIM [1]。注意，KernelGAN不适用于比例因子3。小图像数据集上的结果被省略，由于弱补丁递归。方法核峰值信噪比图像PSNR/SSIM之前非盲SR后非盲SR×2[44]第四十四话32.6723.62/0.558723.76/0.5783双DIP [15，39]39.9823.31/0.568118.47/0.4441DIP [44] +参数先验34.9926.76/0.709128.00/0.7682DIP-FKP（我们的）46.7926.72/0.708928.61/0.8206×2，非高斯核[44]第四十四话32.8423.69/0.562923.81/0.5877双DIP [15，39]39.3623.29/0.569318.25/0.4364DIP [44] +参数先验34.5026.74/0.709627.77/0.7631DIP-FKP（我们的）44.2726.76/0.709727.88/0.8019×2，图像噪声为10级（3.92%）[44]第四十四话32.4723.06/0.531423.67/0.5846双DIP [15，39]39.8922.73/0.532221.95/0.6011DIP [44] +参数先验31.9826.61/0.693927.11/0.7118DIP-FKP（我们的）45.2026.66/0.694627.67/0.7403525048464402004006008001000迭代（一）46454443424140390200400600800迭代（b）第（1）款1000双DIP和DIP FKP。可以观察到，Double- DIP是随机初始化的，并且只有轻微的改进-图 6 ：优化期间 Double-DIP 、 DIP-FKP 、 KernelGAN 和KernelGAN-FKP（a）和（b）中的测试图像分别为和双DIP分别为143K和641K。使用轻量级FKP，在Tesla V100 GPU上生成大小为1， 024 1， 024的HR图像的DIP-FKP 的运行时间和内存使用约为280秒和10.6GB，而Double-DIP需要约300秒和11.2GB内存。6.2.2视觉结果与最先进技术的比较。不同方法在合成图像和真实图像上的视觉效果如图所示。五、正如我们所看到的，RCAN的结果往往是模糊的，而DIP往往会生成类似噪音的图像。当不同的内核先验被合并到DIP中时，“DIP+Softmax”和Double-DIP都相比之下，DIP-FKP产生的内核非常接近地面实况，并为合成图像和真实世界图像生成视觉上最令人愉快的SR结果优化期间的中间结果。图6（a）提供了一个示例，以示出图6（a）的中间核结果。在优化过程中。相比之下，随着FKP的迭代，DIP-FKP具有良好的内核初始化，并且内核被约束在学习的内核流形中，从而比Double-DIP更好地收敛。6.3. KernelGAN FKP实验6.3.1定量结果与最先进技术的比较。在表3中，我们比较了提出的KernelGAN-FKP的平均内核和图像PSNR/SSIM与双三次插值，RCAN [56]，KernelGAN [3]和上限模型（非盲SR模型USRNet [53]给定地面真实内核）。可以看出，由于内核不匹配，RCAN具有与朴素双三次插值相似的性能。Ker- nelGAN能够处理不同的内核，并取得比 RCAN 更好的结果。与 KernelGAN 相比，KernelGAN-FKP 在比例因子为 2 和 4 时分别获得了2.83dB和3.35dB的核PSNR增益，在非盲SR后分别获得了1.1dB和1.77dB的图像PSNR改善。对非高斯核函数和图像噪声的鲁棒性。表3还显示了在给定非高斯内核或噪声图像时不同方法的结果。实验细节与DIP-FKP相似。可以看出，尽管所有方法都有性能下降的问题，双DIP-FKPKernelGAN内核GAN-FKPKernel PSNR（dB）Kernel PSNR（dB）方法内核PSNR非盲PSNR/SSIM×2双三次插值-26.97/0.7665RCAN [56]-26.99/0.7666[53]第四十四话：一个人44.9527.59/0.8162KernelGAN-FKP + USRNet [53]（我们的）47.7828.69/0.8567GT + USRNet [53]（上限）-34.59/0.9268×4双三次插值-23.20/0.6329RCAN [56]-23.20/0.6310[53]第四十四话：一个人57.2623.69/0.6539KernelGAN-FKP + USRNet [53]（我们的）60.6125.46/0.7229GT + USRNet [53]（上限）-29.46/0.8069×2，非高斯核双三次插值-26.96/0.7662RCAN [56]-26.98/0.7663[53]第四十四话：一个人43.2727.00/0.8030KernelGAN-FKP + USRNet [53]（我们的）44.7227.40/0.8334GT + USRNet [53]（上限）-34.59/0.9272×2，图像噪声为10级（3.92%）双三次插值-26.65/0.7258RCAN [56]-26.22/0.6627[53]第四十四话：一个人44.5528.53/0.8281KernelGAN-FKP + USRNet [53]（我们的）47.1329.58/0.830310608KernelGAN-FKP（我们的）+ [53]第五十三话31.35/26.01/-图7：比例因子为4时，不同方法在合成图像和真实图像上的视觉效果估计/地面实况内核显示在图像的右上角。补充资料中提供了更多的可视化结果KernelGAN-FKP仍然以实质性的利润率优于其他方法。特别是，KernelGAN-FKP在处理图像噪声方面提供了相当的性能。潜在的原因可能是GAN发生器中的噪声注入有助于避免过拟合[14]。模型参数、运行时和内存使用。从 KernelGAN 到KernelGAN-FKP，深度线性网络被提出的FKP所取代，这将生成器参数的总数从151 K减少到143 K。对在Tesla V100 GPU上，Kernel-GAN的运行时间和内存使用分别约为93秒和1.3GB，与图像大小无关。至于KernelGAN-FKP，它需要90秒和1.5GB内存。6.3.2视觉结果与最先进技术的比较。图7显示了不同方法对合成和实际样品的视觉比较世界图像。可以看出，RCAN倾向于生成仅略好于LR图像的模糊图像。这是因为假设的双三次内核比地面实况内核更尖锐。相反，KernelGAN倾向于产生更平滑的内核，导致边缘过度锐化。相比之下，KernelGAN-FKP生成更准确的模糊内核，并为合成和真实世界图像产生更少的伪影。优化期间的中间结果。 KernelGAN-FKP和KernelGAN的中间核结果如图 6 （ b ）所示。可以看出，KernelGAN-FKP比KernelGAN收敛得更稳定，更好，后者在优化过程中会振荡。这表明FKP的引入可以增加训练稳定性，提高核估计性能。6.4. DIP FKP与核心GAN FKP虽然 DIP-FKP 和KernelGAN-FKP 分别优于Double-DIP和KernelGAN，但比较它们的差异很有趣。由于DIP-FKP联合估计内核和HR图像，因此需要更多的算法。此外，它通常生成更好的核估计，并具有更稳定的收敛小图像。相反，KernelGAN-FKP需要的内存要少得多，因为它只需要优化内核，但它不适合小图像和大比例因子，因为它需要重新缩小LR图像。7. 结论在本文中，我们提出了一个基于流的核先验（FKP）的核分布建模，并将其纳入到实验盲SR方法更好的核和图像估计性能。FKP学习一个可逆的映射之间的复杂的核分布和一个易于处理的潜在变量分布的基础上规范化流块。它的训练是无监督的，因此FKP适用于任意核假设。当用作核先验时，FKP冻结其参数并优化网络输入空间中的潜变量。因此，合理的核保证初始化和沿优化。FKP可以很容易地被纳入现有的核估计模型，如双DIP和KernelGAN，通过更换其内核建模模块。对合成LR图像和真实图像的大量实验表明，FKP显着提高了核估计的准确性，从而导致最先进的盲SR结果。致谢本研究得到了苏黎世联邦理工学院基金（OK）、华为技术有限公司（芬兰）项目、国家留学基金委和微软Azure基金的部分支持。特别感谢Yijue Chen。无地面实况（真实图像）KernelGAN [3]+ [53]第五十三话28.30/23.78/-LR（×4）RCAN [56]峰值信噪比（dB）[53]第五十三话24.05/21.94/-32.18/26.81/-10609引用[1] Eirikur Agustsson和Radu Agustfte。Ntire 2017单图像超分辨率挑战：数据集和研究。在IEEE计算机视觉和模式识别研讨会会议上，第126-135页，2017年。五、六、七[2] 伊莎贝尔·贝京和FR费里。盲超分辨率以学习为基础的方法。在IEEE国际模式识别会议上，第85-89页，2004年。2[3] Sefi Bell-Kligler，Assaf Shocher和Michal Irani。盲使用内部GAN的超分辨率核估计。在神经信息处理系统的进展，第284-293页，2019年。一、二、四、五、七、八[4] Marco Bevilacqua，Aline Roumy，Christine Guillemot，玛丽·莱恩·阿尔贝里·莫雷尔。基于非负邻域嵌入的低复杂度单幅图像超分辨率在英国机器视觉会议上，第135.1-135.10页，2012年。第五、六条[5] Emmanuel J Candes，Michael B Wakin，and Stephen PBoyd.通过重新加权最小化来增强稀疏性。傅立叶分析与应用杂志，14（5-6）：877-905，2008. 2[6] Tony F Chan和Chiu-Kwong Wong。全变差盲法反卷积 IEEE Transactions on Image Processing ， 7（3）：370-375，1998. 2[7] Kostadin Dabov，Alessandro Foi，Vladimir Katkovnik，and凯伦·埃吉扎

下载后可阅读完整内容，剩余1页未读，立即下载