图像降级与分辨率提升的GAN网络

12 浏览量更新于2023-10-13 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

要学习图像超分辨率，首先使用GAN学习如何进行图像降级Adrian Bulat*，Jing Yang*，Georgios Tzimiropoulos英国诺丁汉大学计算机视觉实验室{adrian. bulat，jing.yang2，yorgos. tzimiropoulos}@ nottingham.ac.uk抽象。本文研究的是图像和人脸的超分辨率。针对这个问题的绝大多数先前工作集中在如何增加通过简单的双线性下采样（或在少数情况下通过模糊后的下采样）人工生成的低分辨率图像的分辨率。我们表明，这种方法无法产生良好的效果时，应用于现实世界的低分辨率，低质量的图像。为了解决这个问题，我们提出了一个两阶段的过程，首先训练一个从高到低的生成对抗网络（GAN）来学习如何降级和下采样高分辨率图像，在训练期间，只需要不成对的高分辨率和低分辨率图像。一旦实现了这一点，该网络的输出将用于使用此时配对的低分辨率和高分辨率图像来训练图像超分辨率的低到高GAN。我们的主要结果是，这个网络现在可以用来有效地提高现实世界的低分辨率图像的质量。我们已经将所提出的管道应用于人脸超分辨率问题，其中我们报告了基线和先前工作的大幅改进，尽管所提出的方法可能适用于其他对象类别。关键词：图像和人脸超分辨率，生成对抗网络，GANs。1介绍本文是关于提高分辨率和质量的低分辨率，噪声，模糊，和损坏的文物图像。我们将所有这些任务统称为图像超分辨率。这是一个具有挑战性的问题，其具有从图像增强和编辑到图像识别和对象检测等众多应用。我们的主要重点是对一个特定的对象类别的超分辨率现实世界的低分辨率图像的问题。我们在我们的情况下使用的面孔，但注意到，所提出的方法是潜在的适用于其他对象类别。尽管存在大量关于图像和面部超分辨率的论文，但是它们中的绝大多数使用通过简单的双线性下采样或在少数情况下通过模糊化随后下采样而人工生成的低分辨率图像作为输入。相反，现实世界的设定得到了* 表示相等的贡献。2Adrian Bulat*，Jing Yang*，GeorgiosTzimiropoulos图1：我们的系统在Widerface [1]的真实世界低分辨率人脸上产生的超分辨率结果。我们的方法与SRGAN[2]和CycleGan [3]。很少受到社会的关注。据我们所知，本文提出了对现实世界的图像超分辨率的第一次尝试之一。我们的系统产生的一些1.一、主要思想。存在在进行真实世界图像超分辨率时需要考虑的大量干扰因素，包括模糊（例如，模糊）。运动或散焦）、压缩伪像、颜色和传感器噪声。这些干扰因素通常是未知的（例如运动模糊）并且有时难以有效地建模（例如，多重退化的情况）。如果真实的图像退化模型与假设和建模的图像退化模型不同，则不可避免地会导致测试期间的性能较差。为了缓解这一问题，在本文中，我们建议使用从高到低的生成对抗网络（GAN）来学习图像退化过程，而不是尝试对图像退化过程进行建模。值得注意的是，所提出的网络在训练期间使用未配对的图像数据，因此它不需要成对的低分辨率图像和高分辨率图像，而只需要两组不相关的低分辨率图像和高分辨率图像，没有对应关系。一旦实现了这一点，我们就可以使用High-to-LowGAN来重新分类和下载高分辨率图像，并使用这些图像作为输入来学习超分辨率和分层图像设置。本实用新型的数据采集方法如图所示。二、我们的贡献概括如下：1. 我们提出了一个第一次尝试超分辨率现实世界中的低分辨率图像为一个给定的对象类别，即在本文中的脸。2. 为此，受[3]的启发，我们建议使用未配对的低分辨率和高分辨率图像来训练高到低GAN，这些图像可用于有效地模拟图像退化过程。在此之后，我们使用高到低GAN来创建成对的低分辨率和高分辨率图像，这些图像可用于训练低到高GAN以实现真实世界的超分辨率。3. 在最近的图像超分辨率工作中，L2像素损失在GAN损失中占主导地位，GAN损失在使图像看起来更清晰方面起着细化作用我们CycleGan输入SRGAN通过学习图像退化来学习图像超分辨率3在这项工作中，我们提出了一种以GAN为中心的方法，其中GAN损失驱动图像生成过程。我们注意到，所使用的GAN损耗在高到低和低到高中起着相互作用在High-to-Low中，它用于用来自Widerface数据集的噪声和伪影污染高分辨率输入图像[1]，而在Low-to-High中，它用于去噪。在这两个网络中，L2像素损失的作用被减少到帮助生成器保留面部特征（例如，身份、姿势、表情）。4. 我们已经将所提出的流水线应用于面部超分辨率的问题，其中我们报告了对来自Widerface数据集的真实世界、低质量、低分辨率图像的基线和先前工作的大的改进。2密切相关的工作有一个很长的图像和人脸超分辨率论文列表，对该主题的详细回顾超出了本节的范围在这里，我们专注于基于卷积神经网络（CNN）的相关近期工作。使用CNN的超分辨率的标准方法是使用全监督方法，其中低分辨率（LR）图像由包括卷积层和上采样层的网络处理我们称之为配对设置，因为它使用成对的LR和相应的HR图像进行训练。我们强调，绝大多数先前的工作使用LR图像，其通过对相应的HR图像进行简单的双线性下采样（或者在少数情况下，通过模糊然后下采样）来人工生成无论采用何种方法，下面介绍的绝大多数图像和人脸超分辨率方法都是基于这种设置的。值得注意的是，最近对超分辨率的挑战[4]也基于此设置。正如最近在[5]中所示，并且在这项工作中也得到了验证，这种设置无法为现实世界的低分辨率图像产生良好的结果。图像超分辨率。基于上述设置[6，7]的早期尝试使用所生成的HR图像与地面实况HR图像之间的各种Lp损失一个值得注意的改进是所谓的感知损失[8]，它在使用另一个预先训练的网络计算的特征图上应用L2VGG [9]）。最近在[10-12]中提出了用于超分辨率的更先进的深度架构，包括递归、拉普拉斯和密集网络最近，随着GANs的引入[13]，作者[2]提出了一种超分辨率方法，在基于像素和/或特征的损失之上，它还使用鉴别器来区分所生成的和原始的HR图像，这被发现产生更逼真的值得注意的是，[14]是[2]的改进版，在[4]的挑战中获得了第一名最近，[15]提出了一种基于块的纹理损失，发现它可以提高重建质量。不同于上述4Adrian Bulat*，Jing Yang*，GeorgiosTzimiropoulos方法是[16]，其不使用GAN，但提出了基于PixelCNN的像素递归超分辨率方法[17]。从上述工作中，我们的方法具有与[5]相似的目标，[5]也针对真实世界图像超分辨率的情况然而，[5]中使用的方法和本文中提出的方法是完全不同的。虽然[5]提出利用内部图像统计来进行真实世界的超分辨率，但我们的方法提出使用未配对的LR和HR图像来学习图像退化过程，然后使用它来学习超分辨率。人脸超分辨率。人脸超分辨率是应用于人脸的超分辨率。类似于图像超分辨率，绝大多数面部超分辨率方法[18-23]基于用于训练和评估的配对设置，其通常在正面数据集上完成（例如，面部识别）CelebA [24]，Helen [25]，LFW [26]，BioID [27]）。[21]的方法以交替的方式执行超分辨率和密集界标定位，这被示出为提高超分辨率面的质量。[19]的作者提出了一种基于块的超分辨率方法，其中使用深度强化学习依次发现要增强的面部区域。[20]的方法不是直接生成HR图像，而是提出将CNN与小波变换组合以预测一系列对应的小波系数。近期工作[22]的是一种基于GAN的方法，类似于[2]中提出的方法。在[18]中，提出了一种两步解码器-编码器-解码器架构，该架构还结合了空间Transformer网络以消除面部未对准。据我们所知，报告真实世界LR面部图像的面部超分辨率结果的唯一方法是[28]的最新工作，该工作对从Widerface数据集[1]拍摄的200多张面部图像给出了令人印象深刻的定性结果。然而，[28]是面部特定的，利用面部界标来产生这些结果，使得该方法不适用于界标不可用或界标定位不那么有效的其他对象类别与许多人脸超分辨率方法相反，所提出的流水线可能适用于其他对象类别。3方法3.1整体架构给定一个16× 16的LR面部图像，我们的系统使用一个超分辨率网络，我们称之为Low-to-High，将其超分辨率为64× 64的HR图像。这个从低到高的网络是用配对的LR和HR面部图像训练的。本文与先前关于超分辨率的工作之间的第一个基本区别是LR图像是如何产生的。在大多数现有工作中，LR图像是通过对对应的（原始）HR图像进行双线性下采样来产生的，这完全忽略了退化过程（例如：运动模糊、压缩伪像等）。为了缓解这一点，并受到[3]的启发，在这项工作中，我们建议使用以下方法学习降低和下采样HR面部图像通过学习图像退化来学习图像超分辨率5LR数据集鉴别器低真的z [64，高-至-低假C低-至-高HR数据集L2像素丢失鉴别器高L2像素丢失假真的0101图2：总体拟议架构和培训管道。另见第3.1节。另一个网络，我们称之为高到低。值得注意的是，High-to-Low使用来自2个完全不同和不相交的数据集的未配对数据进行训练。这些数据集中的第一个包含来自多个面部对准数据集的HR面部图像。第二个数据集包含来自Widerface的模糊且低质量的LR面部图像。本文与以前的工作之间的第二个根本区别是如何将用于训练两个网络的损失与我们的论文相结合，更强调GAN而不是L2像素损失。特别地，虽然现有方法还使用像素损失和GAN损失（并且在一些情况下是特征损失）的组合相反，我们提出的方法是完全GAN驱动的，像素丢失具有加速收敛速度的唯一作用，特别是在训练过程的早期，并帮助GAN保留身份和整体面部特征（例如，面部特征）。姿势、面部表情）。端到端可训练的整体架构如图所示。2.注意，在测试时，仅使用低到高网络的发生器部分。用于培训和测试的数据集在第3.2节中描述第3.3节和第3.4节分别详细介绍了高到低和低到高网络。使用的损失函数详见第3.5节。最后，在第3.6节中描述了培训过程。3.2数据集本节描述了培训和测试期间使用的HR和LR数据集。D6Adrian Bulat*，Jing Yang*，GeorgiosTzimiropoulosHR数据集。我们的目标是在面部姿势方面创建一个平衡的数据集，因此我们通过组合一系列数据集创建了一个包含182，866张人脸的数据集：从Celeb-A[24]中随机选择的60，000张人脸的子集（主要是正面，无遮挡，具有良好的照明），整个AFLW [29]（超过20，000张各种姿势和表情的人脸），一个包含182，866张人脸的数据集。LS 3D-W[30]（在姿势，照明，表情和遮挡方面具有较大变化的面部）和VGGFace 2 [31]的子集（每个身份10个大姿势图像; 9，131个身份）。LR数据集。我们从Widerface [1]创建了真实世界的LR数据集，这是一个非常大规模和多样化的人脸数据集，包含受各种退化和噪声类型影响的人脸总的来说，我们使用了超过50，000张图像，其中3，000张是随机选择的，并保留用于测试。3.3高-至-低在本节中，我们将介绍用于高到低网络的整体架构。生成器和鉴别器都基于ResNet架构[32，33]，使用[33]中引入的预激活的基本块高到低发生器。生成器使用来自HR数据集的输入图像。其架构类似于[2，28]中使用的架构，主要区别在于第一层将与噪声向量级联的HR图像作为输入，该噪声向量被投影，然后使用完全连接的层进行整形这是因为手头的问题是一对多的，即HR图像可以具有多个对应的LR图像，这是由于它可以受到来自不同源并且以不同的量和方式施加的多种类型的噪声的影响我们通过将上述噪声向量与HR图像连接起来对此进行建模这在本质上类似于条件GAN [34]，其中标签是HR图像。图中示出了图示由所提出的网络学习的各种噪声类型的一些视觉示例3.第三章。该网络具有编码器-解码器结构，并且由均匀分布在6个组中的12个残差块组成。使用池层时分辨率下降了4倍，从64× 64降至4× 4 px，然后使用像素混洗层时分辨率增加了两倍，达到16×16高到低发生器如图所示4a.高-低鉴别器。鉴别器，如图所示。5，遵循[35-37]中使用的基于ResNet的架构，由6个残差块（没有批量归一化）组成，后面是一个完全连接的层。由于高到低鉴别器的输入分辨率为16× 16，因此仅使用最大池化时最后两个块的分辨率会下降。从高到低的损失。高到低网络的生成器和鉴别器网络用总损失进行训练，总损失是GAN损失和L2像素损失的组合这些在Eq. 1中所述，并在第3.5节中详述。对于GAN10S，我们使用“非人工”测试集：特别地，我们使用来自LR数据集的真实图像，即，来自Widerface的真实世界LR图像，因此强制生成器的输出（其输入是来自HR数据集的图像）被真实世界噪声伪影污染。我们还在生成器的输出和通过学习图像退化来学习图像超分辨率7HR输入输出从高到低图3：由我们的高到低网络（在第3.3节中描述）针对不同输入噪声向量产生的不同低分辨率样本的示例。请注意，我们的网络可以模拟各种不同程度的图像退化类型，例如照明，模糊，颜色和jpeg伪影。此外，它学习在给定输入图像类型（例如，图像类型）的情况下更可能发现什么类型的噪声。灰度对彩色图像）。最好以电子格式观看HR图像在使其通过平均池化层之后（使得图像分辨率匹配）以强制生成器的输出具有类似内容（即，面部身份、姿态和表情）与原始HR图像进行比较。3.4低-至-高从低到高发生器。发生器接受高到低网络的输出作为输入。该网络由分布在3个组中的17个残差块组成：2、3和12。每个组都有一个跳过连接，用于连接组内的第一个和最后一个块使用双线性插值将分辨率提高了4倍，从16×16提高到64× 64 px。发电机如图所示。4b.我们注意到，因为样本分集已经在前一阶段借助于在高到低的输入中使用的噪声向量获得，所以我们在该阶段没有使用附加的噪声向量。从低到高，鉴别器，如图所示。5，与高到低中使用的相同，除了添加两个新的最大池化层以适应分辨率的增加。从低到高的损失。类似于高到低，低到高的生成器和判别器网络用总损失进行训练，总损失是GAN损失和L2像素损失的组合。注意，在这种情况下，训练完全遵循“配对”集合：对于图像，并且对于输入图像，我们注意到，尽管在以前的工作中，GANlos在处理输出信息时有一个“长期”的过程8Adrian Bulat*，Jing Yang*，GeorgiosTzimiropoulos看起来更清晰，在我们的情况下，它起着对噪声输入LR图像去噪的主要作用。L2像素丢失强制内容保留。3.5损失函数我们使用GAN损失和L2像素的加权组合训练了High-to-Low和Low-to-High如前所述，本文和以前的工作之间的第二个根本虽然最近关于图像超分辨率的工作也使用这样的组合（在许多情况下也存在特征损失），但是在这些工作中，L2像素损失占主导地位，GAN损失发挥细化作用，以使图像看起来更清晰和更逼真（因为已知L2像素损失会生成模糊图像）。相反，在这项工作中，我们提出了一种以GAN为中心的方法，其中GAN损失驱动图像生成过程。我们注意到，所使用的GAN损耗在高到低和低到高中起着相互作用。在高到低中，它用于用来自Widerface数据集的噪声和伪影污染HR输入，而在低到高中，它用于去噪。在这两个网络中，L2像素损失的作用被减少到帮助生成器保留面部特征（例如，身份、姿势、表情）。对于每个网络，我们使用的损失定义为：1=α 1像素+β 1GAN，（1）其中α和β是对应的权重，并且通常β 1GAN> α 1像素对于这两个网络，对于GAN损失，我们利用了该领域的最新从我们的实验中，我们发现它们都生成了类似视觉质量的样本。我们注意到，对于我们的最终结果，由于训练速度更快，我们使用了后者。在[36]之后，我们使用铰链损失定义为：lGAN=ExPr[min（0，−1 +D（x））] +ExPg[min（0，−1−D（x））]，（2）其中P r是数据分布，P g是由yx=G（x）定义的生成器G分布。对于高-低-低，PrdenteteLRdatasett（即e. 对于低到高，是HR数据集。另见第3.2节。鉴别器D的权重W被归一化以便满足Lipschitz约束σ（W）= 1，如下：WSN（W）= W/σ（W）。（三）最后，使用的L2像素损失最小化预测图像和地面实况图像之间的L2距离，并且定义如下：l像素=1千瓦WHΣH（F（Ihr）i、j-GθG（一d）通过学习图像退化来学习图像超分辨率9i、j）2、（4）i=1j =110Adrian Bulat*，Jing Yang*，GeorgiosTzimiropoulos12房假01其中W、H表示所生成的输出图像的大小，并且F是将对应的原始HR图像Ihr映射到输出分辨率的函数。对于高到低，该函数使用平均池化层来实现，而对于低到高，它只是身份函数。3.6培训为了以一致的方式裁剪所有面部图像，我们在所有数据集上运行了面部检测器[38]。为了进一步增加多样性，我们通过应用随机图像翻转、缩放、旋转和颜色抖动来增强训练期间的数据。为了训练低到高网络，我们生成了动态LR图像，每次提供不同的随机噪声向量作为输入到高到低，从正态分布采样，以便模拟各种各样的图像退化类型。高到低和低到高网络都训练了200个epoch（约570，000次发生器更新），鉴别器和发生器之间的更新比率为5：1。最后，我们对它们进行了微调，用于另外2，000个发电机更新。在整个训练过程中，学习率保持在1e-4 我们使用α = 1和β = 0。05在Eq1.一、我们所有的模型都使用PyTorch [39]进行了训练，并使用Adam [40]进行了优化（β1= 0和β2= 0）。第9段）。(a) 高到低发生器。（b）低到高发生器。图4：用于（a）高到低和（b）低到高网络的发生器架构所使用的残差块如图2所示。6b.图5：用于高到低和低到高网络的鉴别器架构。请注意，对于高到低，由于输入分辨率为16× 16，因此省略了前两个最大池化层所使用的残差块如图2所示。6a.通过学习图像退化来学习图像超分辨率11(a) 具有预激活和无批次范数的剩余块。(b) 如[33]中所定义的预激活和批量归一化的残差块。图6：用于生成器（a）和生成器（b）的残差块。4结果在本节中，我们评估我们的系统的性能，并将其与一些有趣的变体和相关的最先进的方法进行比较。我们的主要结果是在我们的LR测试集的3,000张图像上，其中包含来自Widerface数据集的图像。对于本实验，由于没有相应的地面真实HR图像，除了视觉结果外，我们在数值上估计了使用Fr´echetInceptionDistance（FID）[41]采集的一般采样的质量。最后，为了完整性，我们还提供了使用双线性下采样图像作为输入的LS 3D-W数据集的1，000张测试图像的PSNR结果这是先前工作中使用的标准超分辨率实验设置。4.1方法比较其他变体。除了第3节中提出的方法外，我们还评估了一系列有趣变体的性能，所有这些变体的详细信息如下：(a)低到高双线性训练：这是在双线性下采样的图像上训练的第3.4节的低到高网络。该网络是用Eq的损失训练的。1.一、(b)低到高训练的双线性模糊：这是第3.4节的低到高网络，在用随机模糊核模糊之后，在双线性下采样图像上训练，其中核大小从2到6px变化该网络是用Eq的损失训练的。1.一、(c)低到高+低到高像素损失：这是第3.4节的低到高网络，其使用第3.3节的高到低网络来生成LR训练样本。低到高网络仅使用等式中的L2像素损失来训练4.第一章(d)从低到高+从高到低像素和GaN损耗：这是3.4节的低到高网络，其使用3.3节的高到低网络来生成LR训练样本。使用等式中定义的损失来训练网络。1. 这是所提出的方法的完全实施。++Conv 3x3ReLUBatchNormConv 3x3ReLUBatchNormConv 3x3ReLUConv 3x3ReLU10Adrian Bulat*，Jing Yang*，GeorgiosTzimiropoulos最先进的我们的方法在数值上和定性上与5种相关的最先进的方法进行了比较：1种图像超分辨率方法，即SRGAN [2]，2种面部超分辨率方法，即Wavelet-SRNet [20]和FSRNet [42]，1种不成对图像平移方法，即 CycleGan [3] ，以及 1 种去模糊方法，即 DeepDeflur [43] 。SRGAN和Wavelet-SRNet使用成对的双线性下采样HR图像在我们的训练集上进行训练。FSRNet仅提供测试代码（使用双线性下采样的HR图像对他们的数据集进行CycleGan的训练方法与我们的方法类似最后，对于DeepDeflur，我们有两个选择：要么使用在其数据（模糊-清晰图像对）上训练的预训练模型，要么使用双线性下采样-HR图像对在我们的训练集后一个选项将使其与SRGAN非常相似，因此我们使用了前一个选项。4.2超分辨率结果我们的LR测试集在FID方面的定量结果如表1所示。几个图像的定性结果示于图1A和1B中。7和8 所有3，000个测试图像的视觉结果可在补充材料中找到。此外，我们在表1中提供了LS 3D-W上的PSNR结果我们的方法显然优于所有其他的变种和方法，认为无论是数值（FID方面）和（更重要的是）视觉。与其他变体的比较。如所预期的，在双线性下采样图像上训练的低到高（在双线性上训练的低到高）表现不佳，并且在用各种模糊核模糊它们之后在双线性下采样图像上训练的低到高（在双线性模糊上训练的低到高）也表现不佳。总的来说，通过这些方法获得的结果是嘈杂和模糊的。因此，我们建议使用High-to-Low网络从Widerface图像中学习噪声分布然而，使用L2像素损失直接训练这样的网络不能很好地工作（低到高+低到高像素损失）。我们的结论是，L2损失单独是不能去噪的输入，并产生良好的效果。然而，一旦添加GAN损失（所提出的方法），网络就能够成功地（a）产生高质量的样本和（b）对大多数情况下的图像进行降噪。除了上述结果之外，我们还试图量化由高到低网络生成的图像与Widerface的原始LR为此，发现它们的FID等于15.27，而发现双线性下采样图像与原始LR图像之间的FID等于15.27。23.15. 这个结果清楚地说明了所提出的高到低网络在产生忠实地表示真实世界退化的图像方面的有效性。与最先进技术的比较。在FID方面，我们的方法大大优于所有其他方法。此外，从图1A。在图7和图8中，我们观察到我们的方法产生最吸引人的视觉结果。这两个结果都表明，与所有其他方法相反，我们的High-to-Low网络可以模拟真实LR数据集中的图像退化尽管CycleGan也实现了相对低的FID，但从图1A和图1B可以看出。如图7和图8所示，可以观察到视觉上产生的结果质量低这是因为周期一致性损失12Adrian Bulat*，Jing Yang*，GeorgiosTzimiropoulos过于强调像素级相似性，在最终输出中产生大量噪声伪影最后，关于我们在LS 3D-W上的实验，由于所有其他方法都是在双线性下采样和原始HR图像对上训练的，因此它们具有优势并且优于我们的方法。然而，我们的方法（使用High-to-Low的输出进行训练）提供了有竞争力的结果（PSNR< 20 dB）。方法FIDPSNRLR测试装置LS3D-WSRGAN [2]104.8023.19CycleGan [3]19.0116.10[43]第四十三话294.9619.62Wavelet-SRNet[20]149.4623.98FSRNet [42]157.2919.45从低到高（在双线性上训练）85.5923.50从低到高（在模糊+双线性上训练）84.6822.87高到低+低到高（仅像素损失）87.9123.22我们14.8919.30表1：（a）在我们的真实世界LR测试集上的基于FID的性能。越低越好。 (b)LS 3D-W上的PSNR 结果（输入 LR图像是双线性下采样图像）。4.3失败案例我们绝不声称所提出的方法解决了现实世界的图像和人脸的超分辨率问题。我们在图中展示了我们的方法的几个失败案例。9.我们可以将失败分为两组：第一个包含完全失败的情况，其中所产生的图像不像面部。对于其中许多情况，我们注意到输入也不像人脸。这些情况的示例在图1的前两行中示出9.第九条。第二组包含所产生的超分辨人脸被扭曲的情况。这些大多是极端模糊、遮挡和大姿势的情况。这些情况的例子在图12的最后两行中示出。9.我们需要在这里强调，用于训练的HR数据集的许多大姿势面部图像都被合成扭曲成这些姿势（见[30]），预计这会对性能产生一些负面影响总的来说，我们发现我们的测试集中失败案例的百分比大约是10%。5结论我们提出了一种图像和人脸超分辨率的方法，该方法不假设人工生成的LR图像作为输入，而是旨在产生良好的通过学习图像退化来学习图像超分辨率13结果时，应用于现实世界，LR，低质量的图像。为此，我们提出了一个两阶段的过程，首先使用高到低网络来学习如何降级只需要不成对的高分辨率和低分辨率图像的高分辨率图像我们证明了我们的流水线可以有效地提高真实世界LR图像的质量。我们报告了与基线和先前工作相比的巨大改进。图7：来自Widerface的LR测试集的详细定性结果比较的方法见第4.1节。小波-FSRNet SRNetDeepDeflurCycleGan SRGAN像素丢失时的连续训练+双线性双线性输入我们14Adrian Bulat*，Jing Yang*，GeorgiosTzimiropoulos图8：来自Widerface的LR测试集的其他定性结果。比较的方法见第4.1节。图9：故障情况的示例。输入图像显示在第一行和第三行，而由我们的方法产生的输出图像分别在第二行和第四行。第二行中显示的图像不像人脸。第四行的图像确实像一张脸，但它们严重扭曲。训练模糊+双线性我们我们输入输入小波-FSRNetDeepDeflurCycleGan我们SRGAN输入通过学习图像退化来学习图像超分辨率15引用1. 杨，S.，Luo，P.，Loy，C.C.，唐X：更宽的脸：人脸检测基准。在：CVPR中。（2016年）2. L edi g， C. ，这是 LHusza'r ， F. ， Caballero，J. ， Cunningham ， A.Acosta，A. Aitken，A. Tejani，A.，托茨，J.，王志，等：使用生成对抗网络的照片级真实感单幅图像超分辨率。在：CVPR中。（2017年）3. Zhu，J.Y.，Park，T. Isola，P.，Efros，A.A.：使用周期一致对抗网络的不成对图像到图像翻译。In：ICCV. （2017年）4. Timofte河，Agustsson，E.，凡古尔湖Yang，M.H.，张，L.，林湾儿子SKim，H.不S Lee，K.M.，等：Ntire 2017挑战单幅图像超分辨率：方法和结果。在：CVPR-W中。（2017年）5. Shocher，A.， C〇hen，N.，我是M ：“zeroshot”是一种可持续的学习方法。ArXiv（2017）6. 董，C.，Loy，C.C.，他，K.，唐X：使用深度卷积网络的图像超分辨率。IEEE TPAMI（2016）7. 金，J.，Kwon Lee，J.，Mu Lee，K.：使用非常深的卷积网络实现精确的图像超分辨率。在：CVPR中。（2016年）8. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。In：ECCV. （2016年）9. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。02The Dog（2014）10. Lai W.S.Huang，J.B.，Ahuja，N.，Yang，M.H.：深拉普拉斯金字塔网络实现快速和精确的超分辨率。在：CVPR中。（2017年）11. Tai，Y.，杨杰，刘X：通过深度递归残差网络实现图像超分辨率。在：CVPR中。（2017年）12. Tong，T.，Li，G.，Liu，X.，中国科学院院士，Gao，Q.：使用密集跳跃连接的图像超分辨率。In：ICCV. （2017年）13. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，C〇urville，A.， Be n gio，Y. ：Genertivea dversaria nets.In：NIPS.（2014）267214. 林湾儿子S Kim，H.不S Lee，K.M.：用于单图像超分辨率的增强深度残差网络。在：CVPR-W中。（2017年）15. Sajjadi，M.S.，Scholkopf，B.，Hirsch，M.：Enhancenet：通过自动纹理合成实现单幅图像In：ICCV. （2017年）16. 达尔河Norouzi，M.，Shlens，J.：像素递归超分辨率。In：ICCV.（2017年）17. Oord，A.v.d.，Kalchbrenner，N.Kavukcuoglu，K.：像素递归神经网络。2016年《ArXiv18. Yu，X.，Porikli，F.：通过变换判别式自动编码器产生非常低分辨率的未对齐和噪声人脸图像的幻觉。在：CVPR中。（2017年）19. 曹Q.林，L.，施，Y.，梁湘，李，G.：通过深度强化学习实现注意感知的人脸幻觉。在：CVPR中。（2017年）20. 黄，H.，他河太阳，Z.，Tan，T.：Wavelet-srnet：基于小波的cnn多尺度人脸超分辨。In：ICCV. （2017年）21. Zhu，S.，Liu，S.，Loy，C.C.，唐X：深度级联双网络的人脸幻觉。In：ECCV. （2016年）22. Yu，X.，Porikli，F.：基于判别生成网络的超分辨人脸图像。In：ECCV.（2016年）23. Yang，C.Y.，Liu，S.，Yang，M.H.：结构性面部幻觉。在：CVPR中。（二零一三年）16Adrian Bulat*，Jing Yang*，GeorgiosTzimiropoulos24. 刘志，Luo，P.，王，X.，唐X：在野外深度学习人脸属性。In：ICCV.（2015年）25. Le，V. Brandt，J.，林芝，Bourdev，L. Huang，T.S.：交互式面部特征定位。In：ECCV. （2012年）26. Huang，G.B.，Ramesh，M.，Berg，T.，Learned-Miller，E.：在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。技术报告07-49，马萨诸塞大学，阿默斯特（2007年10月）27. Jesorsky，O.，Kirchberg，K.J.，Frischholz，R.W.：使用Hausdorff距离的鲁棒人脸检测。 In ： International Conference on Audio-and Video-Based Bio-metricPersonAuthentication，Springger（2001）9028. Bulat，A.，Tzimiropoulos，G.：Super-fan：集成的面部标志定位和真实世界中任意姿势的低分辨率面部的超分辨率。ArXiv（2017）29. Ko¨stinger，M.，如果你有时间，P。 Roth，P. M.， Bischof，H. ：野生动物中的一种新的人工流产方法：用于面部标志定位的大规模真实世界数据库。In：ICCV-W. （2011年）30. Bulat，A.，Tzimiropoulos，G.：我们离解决二维和三维人脸对齐问题还有多远？(and230，000个3D面部标志的数据集ICCV（2017）31. 曹Q. Shen，L.，Xie，W.，帕克希O.M.齐瑟曼，A.：Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。In：FG. （2018年）32. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：CVPR中。（2016年）33. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射In：ECCV. （2016年）34. Mirza，M.，Osindero，S.：条件生成对抗网。02 The Dog（2014）35. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.：改进的瓦瑟斯坦甘斯训练。ArXiv（2017）36. Miyato，T.，Kataoka，T. Koyama，M.，Yoshida，Y.：生成对抗网络的谱归一化。ArXiv（2018）37. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein ganArXiv（2017）38. Zhang，S.，（1991），中国农业科学院，Zhu，X.，Lei，Z.，施，H.，王，X.，李S.Z.：Sfd：单次拍摄尺度不变的人脸检测器。In：ICCV.（2017年）39. Paszke，A.，格罗斯，S.，Chintal，S.：Pytorchhttp://github.com/pytorch/pytorch40. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法02 The Dog（2014）41. Heusel，M.，Ramsauer，H.Unterthiner，T.，内斯勒湾Hochreiter，S.：两个时间尺度更新规则训练的甘斯在：NIPS。（2017年）42. 陈玉，Tai，Y.，Liu，X.，中国科学院院士，Shen，C.，Yang，J.：Fsrnet：端到端学习面部超分辨率与面部先验。在：CVPR中。（2018年）43. 不S金T.H. Lee，K.M.：深度多尺度卷积神经网络动态场景去模糊。在：CVPR中。（2017年）

下载后可阅读完整内容，剩余1页未读，立即下载