面部图像修复模型在生成和重建方面的改进及其评价指标研究

59 浏览量更新于2023-10-25 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7652面部深层修复杨钊（音译）布法罗大学yzhao63@buffalo.edu苏宇川，朱春德，李延东，Marius Renn，朱宇昆谷歌研究{ycsu，ctchu，yandongli，renn，yukun} @ google.com陈昌友布法罗大学changyou@buffalo.eduXuhui Jia谷歌研究xhjia@google.com摘要一个能够真实地将低质量的人脸图像恢复为高质量的人脸图像的模型虽然现有的人脸恢复方法在生成高质量的人脸方面取得了重大进展，但它们往往无法保留损害重建人脸真实性的人脸特征。因为人类视觉系统对面部非常敏感，所以即使是微小的改变也可能显著地降低感知质量。在这项工作中，我们认为，现有模型的问题可以追溯到两个子任务的人脸恢复问题，即。人脸生成和人脸重建，以及它们之间脆弱的平衡。在此基础上，提出了一种新的人脸恢复模型，该模型在生成和重建两个方面都有改进。除了模型的改进，我们还引入了一个新的评价指标来衡量模型的能力，以保持恢复的面孔的身份。大量的实验表明，我们的模型达到了国家的最先进的性能在多个人脸恢复基准，所提出的度量有较高的相关性与用户的喜好。用户研究表明，我们的模型产生更高质量的面孔，同时更好地保留身份86。4%的时间符合最先进的方法。1. 介绍人脸图像在我们的日常生活中起着至关重要的作用，并且是许多应用（如人像拍摄，人脸识别等）成功的核心。虽然这些应用通常依赖于具有良好质量的面部作为输入，但由于各种原因，低质量的面部图像在现实世界中是不可避免的，例如，低图像分辨率、运动模糊、散焦模糊、传感器噪声、编码伪像等。因此，一种可以忠实地恢复退化面部的方法在Google Research实习期间完成的工作转换成高保真度的图像而不管退化的类型是非常需要的。近年来，在面部修复方面取得了很大进展，在过去的几年里，由于深度生成对抗网络（GANs）的快速发展[8]。现有的作品将人脸恢复视为条件图像生成问题，并且他们学习了一个U-Net模型，该模型可以预测一个高质量的人脸图像，并将低质量的人脸图像作为输入[3，20，21，23，35，36，40]。尽管能够生成逼真的面孔，但他们仍然面临着面部修复带来的独特具体来说，他们往往无法在输入中保留精致的面部特征，而是产生了一个不像原始主体的高质量面部的幻觉。该模型可以改变受试者虽然这些变化在像素空间中可以忽略不计并且与真实性无关，但是它们对于真实性是必不可少的例如，它们可能会破坏面部识别系统，因为生物特征偏离原始主体，并且它们可能会降低照片的感知质量，因为主体看起来像不同的人。我们认为，造成上述问题的脆弱平衡之间的人脸生成和人脸重建。正如我们稍后将展示的，面部恢复问题可以被解释为两个子任务的组合，即：生成和重建，其中面部生成旨在学习高质量面部的分布，而面部重建旨在捕获面部特征（例如，形状和纹理），而不管其质量[5，36]。一个过分强调生成而重建失败的模型可能会产生一张不属于主体的脸的相比之下，一个模型，在生成失败导致不满意的恢复质量。因此，一个成功的人脸恢复模型必须同时解决这两个子任务，这还有待于实现。基于观察，我们提出了一个新的模型，旨在提高生成和重建。到7653×输入DFDNet GPEN GFPGAN Ours GT图1.最先进的面部修复模型的问题。GPEN [40]和GFPGAN [36]偏向于面部生成，可能会改变面部细节（例如，眼睛颜色）与身份高度相关。DFDNet [20]偏向于重建，并没有消除所有退化。我们的方法实现了最佳平衡，在保持身份的同时恢复高质量的面部为了改进人脸生成，我们向模型中注入了自适应条件噪声，这是受到最近图像生成模型的巨大成功的启发噪声赋予复原模型以随机属性，并允许模型捕获面部复原问题的非确定性本质。为了改善人脸重建，我们通过以下方式增强跳过连接中的潜在特征：1）使用从高质量图像中学习的码本量化特征; 2）引入全局特征融合模块，用于自适应组合来自解码器和跳过连接的特征。这些改进是基于这样的观察，即由编码器提取的特征可能会损害重建性能，特别是当输入质量差时。最后，我们探讨了模型架构，特别是跳跃连接的数量，以优化生成和重建之间的平衡。与模型一样，人脸重建的评价指标也受到过度强调问题的生成或重建方面的影响。现有的作品借用为图像生成设计的指标，例如： Fr e′ chet起始距离（FID）[12]，或为图像重建开发的度量，例如峰值信噪比（PSNR）、结构相似性指数（SSIM）或学习感知图像块相似性（LPIPS）[44]。它们分别关注输出和目标之间的感知质量或像素相似性，并且它们都不能捕捉面部特征的细微变化。为此，我们提出了一个新的度量标准，衡量图像质量和内容保存，其中内容保存是由能力，以保持身份。实验结果表明，在人脸恢复问题中，所提出的方法与评价者的感知质量有更好的相关性。本文的主要贡献如下。首先，我们表明，现有的人脸恢复模型的问题可以追溯到两个子任务的问题，即。人脸生成和人脸重建。第二，我们提出一个通过改进两个子任务的模型设计，提出了新的人脸恢复模型。最后，我们引入了一个新的评价指标，人脸恢复，措施的真实质量和身份保护。在盲人脸恢复（BFR）和超分辨率（SR）两个基准上的实验结果表明，所提出的模型始终优于最先进的方法，并且所提出的度量与人类评分员的感知质量更好地相关此外，用户研究表明，我们的模型是首选的人类评分员86。与最先进的面部修复模型相比，只有4%的时间2. 相关工作人脸图像恢复已经从各个方面吸引了相当多的关注，例如，人脸超分辨率[11，22，23，37，39]，盲脸恢复[20，21，36，40]，去模糊[18，32，41]，去噪[10，43]，修复[38，42，47]等人类感知对面部图像比其他图像域更敏感，因此需要更具体和细致的控制。在建模策略方面，最近所有关于高分辨率的著名作品（例如，512512）诉诸最大似然估计重建真实的面部特征和对抗性学习生成高保真图像分布。最先进的 BFR 模型利用现成的生成网络（如StyleGAN [16]）来提高迭代性能[9，23，29，36，40]。基于先验生成网络可以生成任意高保真人脸的假设，他们专注于将退化的人脸映射到生成器的适当潜在特征。虽然它们在图像生成指标方面表现出有前途的性能换句话说，他们倾向于面部生成，而忽视面部识别。7654→GD·图2.所提出的模型与一个跳跃连接。(1-NN：1-最近邻搜索。调制：如StyleGAN2中的特征调制[16]。LGF：线性门控特征融合。）结构相比之下，我们的方法在内容保存和高保真面部生成之间达到了良好的平衡，这导致了更好的主观质量。此外，我们的模型可以从头开始训练，不需要仔细优化的GAN模型。评价指标现有的人脸恢复工作采用PSNR、SSIM和LPIPS [44]来衡量每个示例的重建性能。为了评估恢复的人脸分布与真实人脸分布之间的距离，我们通常采用FID，Inception score [30]和Kernel Inception Distance[2]。然而，它们可能会导致彼此之间的判断不一致。一个众所周知的例子是，模糊图像可以提高PSNR和SSIM [44]，但会降低其他指标。FID主要受评估样本数量的影响，并且在事先不了解评估系统的情况下也可能带来不公平的比较[25]。LPIPS似乎暗示了与人类更好的协议，但它未能捕捉具体的面孔身份。我们提出了一个强大的度量，同时衡量整体样本3. 方法在本节中，我们将介绍改进人脸恢复的方法。我们首先制定的脸恢复问题，并描述如何将其分解为人脸生成和人脸重建的组合。接下来我们将介绍如何分别改进重构和生成子任务。最后，我们描述了培训过程。问题解释我们可以从目标和模型的角度将人脸重建问题解释为人脸生成和人脸重建子任务的组合。令X表示退化的低质量图像域，Y表示高质量图像域，并且PY表示高质量图像的分布假设存在一对多退化函数Deg：Y X，人脸恢复的目标是学习反函数G：X→Y，满足最小D（P G（X）||P Y）+Ey<$YEx<$Deg（y）κ（G（x），y），（1）其中是分布距离，κ（）是两个图像之间的成对距离。从客观的角度来看，第一个术语是图像生成的目标，它鼓励恢复的图像看起来逼真，并且与authen- tic高质量图像难以区分。而第二项是用于图像重建的目标，其类似于输入图像从其退化的高质量图像并且保留面部特征。从模型的角度来看，G中的解码器可以被认为是一个图像生成模型，其目的是从潜在特征生成逼真的图像相比之下，编码器旨在将图像投影到适当的潜在特征以进行重建，类似于StyleGAN编码器[29]。然而，与StyleGAN编码器不同，面部恢复模型中的编码器必须对输入图像中的退化具有鲁棒性，以便恢复具有任意质量的一种常见的做法是使用如图2所示的U-Net架构来实现G，并实现等式1的前半部分和后半部分。1分别使用对抗性损失和重建损失基于这种解释，我们接下来描述如何改进生成和重建子任务以实现更好的人脸恢复。3.1. 改善重建人脸重建子任务需要对基于输入图像生成的图像中的人脸细节进行细粒度控制，以实现真实的人脸恢复。这是通过使用编码器提取的潜在特征来调节生成模型来实现的。更具体地，U-Net架构中的跳过连接将低到高级别信息传递到解码器，以用于输入面的真实重构。虽然U-Net架构在先前的工作中被广泛采用，但我们的经验结果表明，它可能是次优的人脸恢复，特别是对于严重退化的输入编码器不能从低质量图像中提取有用的特征，而低质量特征又阻碍了恢复性能。为了解决这个问题，我们对U-Net架构提出了以下改进.7655n=1k=1C∈∈C国际日、中、韩∈HWHW·R2R2C{}∈：∈输入跳过连接数（n）1 2 4 6图3.通过改变跳跃连接的数量进行定性比较我们从特征分辨率为8 × 8的层开始计数，即，当我们将最大输入分辨率设置为512×512时，在分辨率节点{2n+2× 2n+2}6处存在可能的跳过连接。3.1.1特征量化为了帮助模型推广到严重退化的图像，我们建议增强编码器提取的特征。特别是，我们采用了最近在表示学习和生成模型中引起广泛关注的特征量化方法[6，24，27，28，46]来进行特征增强。其思想是，给定高质量特征的码本=ckK，ckRd，我们可以通过将pij量化为码本中的码字ck 来增强损坏的特征pijRd。换句话说，我们用码本中的特征替换由编码器提取的可能被破坏的特征，使得所得到的量化特征总是由高质量特征组成。我们将特征量化纳入我们的模型，如下所示。给定学习的码本和编码器提取的特征图pRH×W×d，我们使用C p q = arg中最接近的条目替换每个空间位置p ij处的特征min||pij−ck||二、（二）并且在下面的操作中原始特征图P被量化特征图Pq参见图2。我们为每个跳过连接特征映射学习一个码本在训练过程中，我们优化了以下损失，以鼓励模型利用量化特征：3.1.2线性选通特征融合解决来自编码器的无信息特征的问题的另一种方式是仅将跳过连接中的合适特征融合到解码器的特征图中。然而，现有的作品使用加法，级联[40]或空间特征变换[20，36]来组合特征，并且没有一个知道融合的特征是否适合于恢复。为了解决这个问题，我们提出了一个线性门控特征融合（LGF）模块，它集成了来自编码器和解码器的信息，以过滤无信息的功能。它集成了来自两个特征的全局信息，并使用置信度得分过滤特征组合。令p，qRH×W×C分别表示来自相应编码器和解码器块的特征。LGF模块计算：总体评分：o =下样本r（p + q）·W（4）门控评分：s=上采样r（Sigmoid（o））融合功能：q=s（p+q）+（1−s）q其中r是下采样和上采样的窗口大小，WR×是在空间维度上执行的线性投影矩阵。LGF模块使用全局q2信息来估计融合的每个位置的权重LVQ=||p-sg（p）||第二条、第三条其中sg（）是停止梯度算子。我们不是使用梯度下降来端到端地学习码本，而是在从地面真实高质量图像中提取的特征上使用指数移动平均（EMA）[24，28]来学习码本。更具体地说，我们在每次迭代中使用编码器从地面实况高质量图像中提取特征。然后，我们将每个特征向量分配给当前码本中的最大码字，然后使用平均特征更新码字。码本初始化为正态分布。特征p + q 然后，它结合融合的功能和解码器功能使用预测的权重。因此，模型可以学习忽略来自编码器的不合适的特征根据经验，当H > 2 5时，我们设置r=2log2H−5，否则r= 1。3.1.3平衡发电和重建理想情况下，当输入图像中存在严重退化时，人脸恢复模型应该强调人脸生成而不是重建，反之亦然，因为严重GT7656∈∈∗L·LL退化的面可能不包含用于重建的足够细节。鉴于一个成功的人脸恢复模型应该处理各种类型和强度的退化，重要的是要在两个子任务之间取得平衡。然而，我们的实证分析表明，在 U-Net 架构中的 skipconnections强加了一个强大的条件的生成模型，并可能偏向于重构模型。我们添加的跳过连接越多，从高层到低层，模型执行的重建就越强参见图3。以前的作品[20，36，40]选择在所有层中应用跳过相比之下，我们建议重新平衡生成和重建子任务，以提高整体恢复性能。这是通过减少跳过连接的数量来实现的，特别是在较低层中的跳过连接，因为低级跳过连接倾向于对生成模型施加更强的条件并削弱其泛化能力。此外，低级特征在低质量输入中往往信息较少，因为降级可能会实验结果表明，该策略有助于提高人脸恢复性能。更多信息请参见实验和附录。3.2. 改进生成一个成功的人脸复原模型除了真实的重建外，还需要生成真实的高质量人脸.如前所述，这通常是通过由对抗性损失鼓励的面部生成子任务来实现的。然而，经验结果表明，不利用预先训练的生成器的先前作品通常产生较低质量的面部，例如。图1中的DFDNet。换句为了生成清晰的人脸，我们接下来介绍如何改进人脸恢复中的生成子任务。我们假设，以前的工作的问题是，他们试图学习一个确定性的人脸恢复模型G。相比之下，现成的生成网络通过将随机噪声作为模型输入来进行非确定性训练。基于这一假设，我们提出了通过引入噪声来学习随机人脸恢复模型我们可以观察到，输入x和目标输出y通常相当相似，例如，图1和图3。因此，潜在特征的变化在训练期间可能是有限的通过将噪声注入到潜在特征空间中，生成器可能能够处理类似于最近的基于面部先验的技术的更复杂的情况[36，40]。在实践中，我们实现随机人脸恢复模型如下。令Enc（x）RH'×W'×C表示由编码器提取的最终特征图。我们通过在条件随机噪声上应用线性软门来计算条件随机噪声：c=Sigmoid（z）其中z=AttentionPool（Enc（x））RC，并且表示逐元素乘法[26]。然后，我们将噪声信号fdc馈送到解码器，在解码器中，我们基于StyleGAN2架构实现更具体地说，我们应用一个样式块的跳跃连接功能和解码器功能融合之前，使用LGF在节中描述。3.1.2，我们通过将其映射到StyleGAN 2中的样式向量来将BLOGc馈送到两个块具体实施请参见与无条件的随机噪声相比，DNC封装了输入的潜在表示z，从而施加了更多的内容感知控制。3.3. 学习目标本节描述用于训练的目标函数我们实例化的脸恢复问题，即。当量1、使用以下目标函数：L=αLADV+LREC+ LVQ。（七）前两项是对抗性发电损失和重建损失，并且对应于等式2中的两项。1.一、最后一项是第3.1.1节中描述的特征量化损失。α是平衡生成和重建的超参数。α影响的消融研究见附录。在实践中，我们使用非饱和损耗[8]实现ADV，并通过在最小化−Ey<$Ylog [D（Aug（y））]−Ex<$Xlog [1−D（Aug（G（x））]术语“不”，x=G（x，n），n∈N（0，1），（5）并且通过最小化生成器G来优化生成器G，由最先进的GAN模型驱动[16]。随机模型从多个方面都是有益的。它有助于捕捉面部恢复问题的不确定性，其中可能存在多个高质量图像，这些图像可能会退化为相同的低质量面部。确定性模型无法捕获所需的逆退化函数。它还有助于在训练期间更好地探索生成模型的潜在特征空间。虽然通常的做法是对降解函数进行为了在训练期间生成随机输入x∈Deg（y）-ExXlog [D（Aug（G（x））]，其中Aug（）是可微数据增强[45]，包括随机颜色变换和平移。重建损失由LREC=L1+LEp，（8）其中1是目标和恢复图像之间的L1损失，precep是基于预训练的VGG-19网络[33]的感知损失，遵循图像生成中的现有工作[7，13，20，36]。详见附录。7657其中I，I'分别是e和e'的单位标号RG|Er|er ∈ErRRgG12Gr联系我们Σ图4. iPrecision的插图。(a)精度测量恢复图像（蓝色区域）落入真实图像（红色区域）的部分（重叠面积）(b)对于每一幅复原图像，通过计算其到每幅真实图像的矢量化特征距离来（c）-（e）示出了一个恢复图像e的判定。我们考虑每个实像的四个邻居，并且恒等式满足Ie=Ie'，Ie=/我...（c）e是e ′ 1的最近邻居，并且两者具有相同的ID。（d）show_e不在k最近邻域内。（e）e和e′2具有不同的ID，尽管e是最接近的一个。在（c）-（e）项中，只有（c）项算作一个正确的匹配，iPred=1。4. 身份保留度量本节介绍了一个新的评估指标，是专门为人脸恢复问题。如前所述，面部修复中的现有工作通常是输入输出GT图 5. 定性的例子，说明所提出的度量的优点。(Top)PSNR=22.8，iPred=1。（底部）PSNR=27.5，iPred=0。顶行显示iPred聚焦于面部区域，并且对背景中的伪影不太敏感。相比之下，PSNR或SSIM在每个像素处放置全局相等的权重第二行示出了iPred对面部分量附近的伪影更敏感，即右眼。对于e∈E，我们定义一个二元函数Ie=Ie'， e′∈E通常采用用于一般图像重建或生成的度量虽然这些指标可以衡量重建图像的一般质量，它们是iPred（e，E）=0,否则S.T. κ（e，e′）≤κ（e′，NNk（e′，E））无法捕捉面部的细微变化，像素空间，但在感知上是重要的。特别是eeNNk（e′，E）是k的第近邻e′在E中，和κ（·）他们经常不能测量恢复的面部是否保留了与身份相关的细节。为了解决这些问题，我们提出了一个度量，同时测量图像质量和面部细节preservation。新度量基于[19]中引入的生成模型的改进的精确度和召回率度量，其中精确度测量生成图像的分布是否落入真实图像的分布中，而召回率测量相反的分布。因此，高精度表示生成的图像质量高，因为是欧氏距离。二元函数指示e是否落入 e′E，其中e和e′属于同一恒等式，{e′}E用e ′周围的超球面表示。图示见图4Giv eniPred（·），我们可以定义iPrecision（E，E）=1iPred（e，E）（9）|Eg|eg∈EgiRecall（E，E）=1 （e，E）（10）真实图像是指面部恢复问题中的高质量图像Y。我们扩展的度量考虑facial细节保存，这是衡量的能力，以保持身份信息。换句话说，我们不考虑恢复的人脸是否落入所有高质量人脸的分布中，而是考虑它是否落入同一主题的高质量人脸的分布中。因此，高精度意味着生成的面部是高质量的，并且保留了主体的身份。更具体地，评估度量定义如下。给定预先训练的特征提取器，例如，Inception V3 [34]或FaceNet [31]，我们计算两组图像特征{Eg，Er}，它们对应于生成的和真实的图像特征。我很尊重你。设Eg=Er，Er=Eg。或每个FEA-伪代码请参考附录。如前所述，iPrecision是衡量人脸恢复模型产生高保真和忠实重建的实际能力的良好指标。我们的用户研究证实了这一点，该研究表明，与PSNR和LPIPS等标准指标相比，iPrecision与人类评估结果的相关性更好此外，请参见图5中的定性示例，这些示例说明了所提出的度量的优点。5. 实验我们评估所提出的模型的性能标准基准的人脸恢复。目的是验证：1）所提出的方法提高了人脸恢复性能，2）所提出的评价指标更好地捕捉人脸恢复中的感7658知图像质量。7659×× × ××模型PSNR↑BFRSSIM↑LPIPS↓FID↓PSN×8R↑×16SrLPIPS↓×8 ×16FID↓×8 ×16[18]第十八话25.910.6950.40052.69------PSFRGAN [4]24.710.6560.43447.59------[39]第三十九话24.920.6200.47766.0926.3624.660.2110.26629.9536.26DFDNet [20]23.680.6620.43459.0825.3723.110.2120.26629.9735.46mGANprior [9]24.300.6760.45882.2721.4421.290.5210.518104.20100.84[23]第二十三话----24.3222.540.4210.42565.8965.33pSp [29]----18.9918.730.4150.42440.9743.37GFPGAN [36]25.080.6780.36542.6223.8019.670.2930.38236.6763.24GFPGAN*[36]24.190.6810.29638.1524.1221.770.2980.34234.2237.61GPEN [40]23.910.6860.33125.8724.9723.270.3220.36130.4931.37我们28.010.7470.22418.8726.5824.170.2050.26018.2722.94表1.盲人脸恢复（BFR）和超分辨率（SR）的定量比较。GFPGAN* 表示没有着色的模型。(‘-’ indicates the number of not10的情况。80的情况。60的情况。41 2 34邻域尺寸10的情况。80的情况。60的情况。41 2 34邻域尺寸10的情况。80的情况。60的情况。40的情况。40的情况。6081召回10的情况。80的情况。60的情况。40的情况。40的情况。608 1iRecall(a)iPrecision和iRecall对BFR的影响（b）Precision与不同任务的回忆图6.身份保护指标。颜色表示模型，标记表示任务。最好用彩色观看训练数据集我们在FFHQ数据集[15]和CelebA-HQ数据集[14]的训练分割上训练我们的模型，CelebA-HQ数据集由70 k和27 k图像组成。所有图像的大小调整为512512与Pil-low. Image. LANCZOS。按照人脸恢复的标准实践[20，21，36，40]，我们使用以下退化模型从真实的高质量人脸y合成退化的低质量人脸xx= [（ykσ）↓r+nδ]JPEGq，（11）即首先将高质量图像y与具有核大小σ的高斯模糊核kσ卷积，并以因子r下采样。然后在应用具有质量因子q的JPEG压缩之前添加具有标准偏差δ的加性高斯白噪声nδ，以获得最终的低质量图像x。恢复模型用图像对（x，y）按照等式（1）训练。7 .第一次会议。有关实施细节，请参阅附录。退化模型模拟了由散焦、远距离感知、噪声、压缩及其组合引起的真实世界低质量图像[21]。虽然其他类型的退化是可能的，但我们采用与先前工作[20，36，40]中使用的相同退化模型进行公平计算。同样，我们从[0.2，10]，[1，8]，[0，15]和[60，100]中随机采样σ，r，δ和q，用于GFPGAN[36]之后的退化函数。我们使用两个任务比较我们的模型和CelebA-HQ测试分割中所有3 k图像的基线，即。盲人脸恢复（BFR）和超分辨率（SR）. 对于BFR，我们合成低质量的IM-年龄使用相同的退化模型作为训练数据。对于SR，我们创建了两组低质量的图像，分辨率分别为64 64和32328和16SR任务。我们使用1）标准的客观指标，包括PSNR，SSIM，LPIPS和FID，2）建议的iPrecision和iRecall指标，以及3）通过用户研究的主观评价来评估性能5.1. 客观评价我们首先使用标准的客观指标来评估模型的性能。表1总结了结果。我们的模型始终优于所有基线，在BFR和SR上都有很大的利润。实验结果表明，该模型在恢复图像质量和重建精度方面均优于现有的人脸恢复模型。性能最好的基线是那些利用预先训练的StyleGAN生成器的基线，即GFPGAN和GPEN。实验结果表明，鲁棒的图像生成模型有助于提高整体恢复性能。然而，我们的模型在使用较少参数的情况下（50M参数，GPEN中的70M参数和GFPGAN中的80M参数）优于GFPGAN和GPEN，这表明平衡生成和重建子任务的重要性。接下来，我们比较了使用所提出的身份保留度量与FaceNet特征提取器的性能。我们专注于与GFPGAN，GPEN和DFD-Net进行比较，因为1）它们在所有基线中实现了最佳的整体性能，2）它们在训练期间与我们共享相同的退化模型结果见图-iPrecisionDFDNETGFPGAN我们的×16SR×8SRBFRiRecall精度iPrecision7660×→输入DFDNet GPEN GFPGAN* Ours GT图7.定性比较。（顶部）BFR。注意睫毛和肤色的差异。（下）16：322 5122SR.注意表情和皱纹的差异。双三26.620.3610.482 0.8GFPGAN24.120.2980.687 5.4GPEN24.970.3220.732 7.4我们26.580.2050.98086.4基线26.850.7100.25120.02+ LGF27.130.7290.24319.55+量化27.350.7370.23819.77+噪声27.400.7380.22519.12表2. ×8SR上的公制比较。6.同样，我们的模型始终优于基线，这表明我们的模型生成更高质量的面部，并更好地保留了恢复面部中的身份相关细节。SR结果见附录注意，所提出的度量具有元参数k，其确定目标分布的大小。图6（a）显示，虽然精确度和召回率都随着k的增加而提高，但不同模型的相对性能保持稳定。因此，单个k应该足以进行评估，并且我们在以下实验中设置k=4。图6（b）比较了原始精确度-召回度量和所提出的身份保留度量的结果。结果表明，身份信息增加了度量的动态范围，这有助于区分不同模型的性能。5.2. 主观评价我们还比较了不同的人脸恢复模型与主观评价。我们对100个随机选择的样本进行了用户研究。对于每个样本，我们给出了四种不同方法的恢复结果以及输入图像和目标图像作为评分者的参考。然后，我们问评分者哪张图像具有最好的感知质量，同时保留目标图像中的面部细节。五名评分员对每个样本进行注释，我们测量评分员更喜欢模型结果的示例的百分比详情请参阅附录SR的用户研究结果见表2。主观评价再次验证了该模型的优越性.有趣的是，我们的模型的优势是更显着的主观评价比客观指标。这表明，表3.消融结果。在人脸恢复中，像素空间可能会显著影响感知质量，并且像PSNR这样的标准度量不能很好地捕获用户偏好。实验结果还表明，所提出的iPrecision指标更好地与评分者的意见相关，这证明了所提出的指标的好处。BFR结果见附录图7显示了不同模型的定性示例。实验结果表明，该方法能够获得最佳的感知质量，并忠实地恢复大部分源细节。更多定性结果和难以修复的结果见附录。5.3. 消融研究我们进行消融研究，以了解每个模型组件如何影响性能。为了快速验证，我们采用以前使用的模型的1/2大小。结果如表3所示，每种提出的改进都提高了整体性能。详情和更多消融结果见附录6. 结论这项工作重新审视了面部修复问题。我们表明，人脸恢复问题可以分解为两个子任务，即。人脸生成和人脸重建，现有模型的问题源于这两个子任务的失败。针对实际问题，通过改进模型设计，引入新的模型，以更好地生成和重构。我们进一步提出了一个新的客观度量，同时评估模型未来的工作将探索个性化的脸恢复利用额外的参考或文本指导。方法PSNR ↑LPIPS ↓iPrecision ↑偏好（%）↑融合类型PSNR↑ SSIM↑LPIPS↓ FID↓7661引用[1] Mart´ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， SanjayGhemawat ， Ian Goodfellow ， Andrew Harp ， GeoffreyIrving ， MichaelIsard ， YangqingJia ， RafalJozefowicz，Lukasz Kaiser，Manjunath Kudlu r，JoshLev enbe r g ， DanjayMa ne' ， RajatMon g a ， SherryMoore ，Derek Murray ，Chris Olah ， Mike Schuster ，Jonathe Shlens，Benoit Steiner，Ilya Sutskever，KunalTal war ， Paul Tucker ， Vincent Vanhoucke ， VijayVasudevan，费南达，奥里奥尔，沃登，马丁，魏克，余元，郑小强. 张量-流量：异构系统上的大规模机器学习，2015年。11[2] 我的儿子比尼奥斯基，丹尼卡J萨瑟兰，迈克尔阿贝尔，阿瑟格雷顿。揭秘mmd甘斯。arXiv预印本arXiv：1801.01401，2018. 3[3] Adrian Bulat和Georgios Tzimiropoulos超级粉丝：集成的面部标志定位和具有gans的任意姿势的真实世界低分辨率面部的超分辨率在CVPR，2018年。1[4] Chaofeng Chen，Xiaoming Li，Lingbo Yang，XianhuiLin，Lei Zhang，and Kwan-Yee K Wong.渐进式语义感知风格变换的盲脸复原。在CVPR，2021年。7[5] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在CVPR，2020年。1[6] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。在CVPR，2021年。4[7] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR，2016年。5[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。一、五[9] Jinjin Gu，Yujun Shen，and Bolei Zhou.图像处理采用多码gan先验.在CVPR，2020年。二、七[10] 史国，严子飞，张凯，左王梦，张磊。真实照片的卷积盲去噪。在CVPR，2019年。2[11] Tiantong Guo，Hojjat Seyed Mousavi，Tiep Huu Vu，and Vishal Monga.用于图像超分辨率的深度小波预测。在CVPR研讨会，2017。2[12] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS，2017。2[13] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。5[14] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR，2018年。7[15] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。七、十一[16] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改善stylegan的图像质量。在CVPR，2020年。二三五[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。11[18] Orest Kupyn ， Tetiana Martyniuk ， Junru Wu ， andZhangyang Wang.Deblurgan-v2：去模糊（数量级）更快更好。在ICCV，2019年。二、七[19] TuomasKynkaüaünniemi 、 TeroKarras 、 SamuliLaine 、Jaakk oLehtinen和Timo Aila。改进的精确度和召回率度量用于评估生成模型。NeurIPS，2019。6[20] Xiaoming Li ， Chaofeng Chen ， Shangchen Zhou ，Xianhui Lin，Wangmeng Zuo，and Lei Zhang.通过深度多尺度分量字典的盲人脸识别。在ECCV，2020年。一、二、四、五、七、十七[21] Xiaoming Li，Ming Liu，Yuting Ye，Wangmeng Zuo，Liang Lin，and Ruigang Yang.学习变形引导的盲人脸复原。在ECCV，2018。一、二、七[22] Cheng Ma，Zhenyu Jiang，Yongming Rao，Jiwen Lu，and Jie Zhou.深层人脸超分辨率，注意力恢复和地标估计之间的迭代协作。在CVPR，2020年。2[23] Sachit Menon ， Alexandru Damian ， Shijia Hu ， NikhilRavi，and Cynthia Rudin. Pulse：通过生成模型的潜在空间探索进行自我监督的照片上采样。在CVPR，2020年。一、二、七[24] AaronvandenOord 、 OriolVinyals 和 KorayKavukcuoglu。神经离散表示学习。NeurIPS，2017。4[25] Gaurav Parmar，Richard Zhang，and Jun-Yan Zhu.关于调整库大小的错误和fid计算中令人惊讶的微妙之处。arXiv预印本arXiv：2104.11222，2021。3[26] Alec Radford，Jong Wook Kim，Chris Hallacy，AdityaRamesh ， Gabriel Goh ， Sandhini Agarwal ， GirishSastry，Amanda Askell，Pamela Mishkin，Jack Clark，et al.从自然语言监督中学习可转移的视觉模型。arXiv预印本arXiv：2103.00020，2021。5[27] Aditya Ramesh 、 Mikhail Pavlov 、 Gabriel Goh 、 ScottGray、Chelsea Voss、Alec Radford、Mark Chen和IlyaSutskever 。零拍摄文本到图像生成。 arXiv 预印本arXiv：2102.12092，2021。4[28] Ali Razavi，Aaron van den Oord和Orio

下载后可阅读完整内容，剩余1页未读，立即下载