GCFSR：基于无先验的生成性和可控性的人脸超分辨率方法

115 浏览量更新于2023-10-26 收藏 26.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18890GCFSR：一种无需面部和GAN先验的生成性和可控性人脸超分辨率方法0Jingwen He 1 Wu Shi 2, 3 Kai Chen 1 Lean Fu 1 Chao Dong 2, 4, �01字节跳动公司，2深圳计算机视觉与模式识别重点实验室，SIAT-SenseTime联合实验室，深圳高级技术研究院，中国科学院，3广东-香港-澳门人机智能协同系统联合实验室，深圳高级技术研究院，中国科学院，中国，4上海人工智能实验室，中国上海。0hejingwenhejingwen@outlook.com, wu.shi@siat.ac.cn,0{chenkai.ck9838, fulean}@bytedance.com, chao.dong@siat.ac.cn0输入×32 GT s = 24 s = 32 s = 480图1. 我们提出的GCFSR在CelebA-HQ [16]上进行32×SR的结果。左：将原始32×32LR输入图像通过双三次插值上采样（×32）到1024×1024分辨率。中间的三个图像是在不同条件上采样因子（s=24，s=32，s=48）下的GCFSR调制结果。条件上采样因子s控制生成的强度。最佳SR结果（s=32）用黄色矩形表示。右：1024×1024分辨率的真实图像（GT）。（放大以获得最佳视图）0摘要0人脸图像超分辨率（人脸幻觉）通常依赖于面部先验来恢复逼真的细节并保留身份信息。最近的进展在GAN先验的帮助下可以取得令人印象深刻的结果。他们要么设计复杂的模块来修改固定的GAN先验，要么采用复杂的训练策略来微调生成器。在这项工作中，我们提出了一种生成性和可控性的人脸SR框架，称为GCFSR，它可以在不使用任何额外先验的情况下重建具有忠实身份信息的图像。通常，GCFSR具有编码器-生成器架构。为多因素SR任务设计了两个模块，称为样式调制和特征调制。样式调制旨在生成逼真的面部细节，而特征调制则在上采样因子的条件下动态融合多级编码特征和生成的特征。这种简单而优雅的架构可以从头开始训练，以端到端的方式。0*通讯作者0对于小的放大因子（≤8），GCFSR只使用对抗损失就能产生出令人惊讶的好结果。在添加L1和感知损失后，GCFSR在大的放大因子（16、32、64）上可以超过最先进的方法。在测试阶段，我们可以通过特征调制来调节生成的强度，通过连续改变条件放大因子来实现各种生成效果。代码可在https://github.com/hejingwenhejingwen/GCFSR获得。01. 引言0人脸图像超分辨率（人脸SR或人脸幻觉）算法近年来发展迅速，在视频恢复和AI摄影中得到广泛应用。人脸SR与一般图像SR [8, 9, 31-33, 38, 41]和人脸生成任务 [10, 15, 17, 18,20]有着密切的关系。与一般图像SR类似，人脸SR是一个恢复问题，其目标是重建正确的结构并保留身份信息。与一般图像SR类似，人脸SR是一个恢复问题，其目标是重建正确的结构并保留身份信息。不同之处在于，人脸SR通常依赖于面部先验来恢复逼真的细节并保留身份信息。最近的进展在GAN先验的帮助下可以取得令人印象深刻的结果。他们要么设计复杂的模块来修改固定的GAN先验，要么采用复杂的训练策略来微调生成器。在这项工作中，我们提出了一种生成性和可控性的人脸SR框架，称为GCFSR，它可以在不使用任何额外先验的情况下重建具有忠实身份信息的图像。通常，GCFSR具有编码器-生成器架构。为多因素SR任务设计了两个模块，称为样式调制和特征调制。样式调制旨在生成逼真的面部细节，而特征调制则在上采样因子的条件下动态融合多级编码特征和生成的特征。这种简单而优雅的架构可以从头开始训练，以端到端的方式。18900目前，人脸SR必须处理非常大的放大因子（8-64）[4, 30,35]，因此需要生成大量的细节，这与人脸生成类似。作为恢复和生成问题的组合，人脸SR具有独特的解决方案流程，其中总是涉及各种额外的面部先验[2, 5, 6, 21, 21, 28, 36,43]，如解析图和属性图。最近的进展发现，人脸GAN可以取代所有以前的面部先验，并产生逼真的面部细节。这是基于这样的观察：一个经过训练的良好的GAN模型已经包含足够的面部信息，足以提供强大的先验。例如，GLEAN[4]采用StyleGAN[20]的中间特征作为潜在库，并在大因子SR任务上取得了优越的性能。而GFPGAN [30]和GPEN[35]引入了人脸GAN模型来解决盲目人脸恢复问题，两者都能恢复出有希望的面部细节。他们的成功归功于对GAN先验的利用，并激发了后续工作寻找更多应用。然而，如果我们必须依赖这样的先验，人脸SR将面临两个明显的限制。首先，由于人脸GAN是在特定数据集（例如FFHQ[19]）上训练的，相应的人脸SR方法只能处理相同类型的人脸图像（例如具有固定尺寸的正面人脸），从而严重限制了其应用范围。其次，由于人脸GAN并非专门为人脸SR而设计，我们必须在网络中添加额外的操作进行适应[4, 25, 30,35]，这是对计算资源的浪费。然后我们会问：我们能否摆脱这些先验，设计一个纯数据驱动的框架？人脸SR中尚未解决的另一个问题是生成的灵活性。现有方法只能输出具有固定风格的单个恢复结果。然而，在实际场景中，用户可能希望调整生成的强度以满足个性化需求。例如，他们在旧照片恢复中希望更多的细节，但在监控视频增强中希望减少幻觉效果。0和连续的放大因子。GCFSR中的三个特殊设计保证了这三个属性，它们是编码器-生成器架构、样式调制和特征调制模块。GCFSR具有非常简洁的架构，没有额外的先验或初始化。我们将在方法部分详细介绍我们的设计。更重要的是，GCFSR具有良好的训练性质。它是端到端可训练的，并且收敛速度快。当放大因子较小时（≤8），可以舍弃所有像素级的约束，仅使用单个GAN损失来实现最先进的性能。这在以前的SR方法中从未被揭示过。大量的实验证明了每个模块的有效性。将它们组合在一起，GCFSR在小型和大型放大因子上都能实现优越的性能。在定性结果中，我们还可以观察到生动的面部细节和逐渐调制的效果（见图1）。02.相关工作02.1. 人脸超分辨率0根据对面部先验的利用，我们可以将人脸超分辨率工作分为两组。一方面，[3, 13, 29, 37,39]中的工作直接使用深度神经网络进行人脸SR，而没有任何额外的面部先验。另一方面，最近的工作集中在面部先验的研究上，以保留身份信息并生成忠实的面部细节。一般来说，面部标志[2, 6, 21, 21, 43]、面部解析图[5,28]和面部属性[36]已被证明在面部图像重建中是有效的。陈等人[6]从LR面部预测地标热图和解析图，然后使用它们进一步微调SR结果。与之不同的是，[2]中的工作同时学习面部SR和地标预测。余等人[36]利用卷积神经网络获取面部组件热图，以实现面部超分辨率的改进。最近，使用面部GAN先验[4, 30,35]取代以前的面部先验取得了重大进展。一般来说，这些最先进的方法都设计了额外的模块来提取特征图和潜在向量，然后使用它们来适应面部GAN先验来处理面部超分辨率/修复任务。02.2. GAN先验0预训练的GAN先验[1, 18, 20]在GAN反演[11, 23, 25, 26,42]中已被深入研究。在PULSE[23]中，GAN先验的潜在代码通过输入和下采样输出之间的L1约束进行迭代优化。而mGANprior[11]优化多个潜在代码以提高重建能力。DGP[25]不仅依赖于潜在代码，还对预训练的GAN先验进行微调以获得更好的性能。由于GAN/0255075100125150175200iter (k)60708090100110120FIDGCFSR (ours)GFPGANGPENGLEAN18910由于反演方法仅使用不充分的低维潜在代码进行图像重建，通常会生成质量较低的不理想结果。为了解决这个问题，GLEAN [4]使用额外的RRDBNet[33]提取多分辨率特征，并将其与GAN先验中的中间特征融合。GLEAN专为单一放大因子的SR设计，并实现了最先进的性能。GPEN [35]和GFPGAN[30]都在盲目人脸修复（BFR）问题上实现了最先进的性能。这两种基于GAN先验的方法还采用额外的编码器提取多分辨率特征，并将它们与预训练的GAN先验的中间特征结合起来。这些最先进的基于GAN先验的方法的更多描述可以在方法3.1中找到。与它们不同的是，我们提出的GCFSR采用了一种无需任何额外先验（面部先验或GAN先验）的端到端训练策略，并在人脸SR上实现了最先进的性能。此外，我们的方法还提供了用户调整生成强度的灵活性。03. 方法03.1. 对基于GAN先验的方法的重新思考。0在介绍提出的GCFSR之前，我们简要回顾了先前最先进的基于GAN先验的图像恢复/超分辨率方法：GLEAN[4]，GFP-GAN [30]和GPEN[35]。在这里，我们提供了这些方法的详细描述，见表1。0表1. 基于GAN先验的最先进方法的详细描述：GLEAN[4]，GFPGAN [30]，GPEN [35]。0GLEAN [4] GFPGAN [30] GPEN [35] GCFSR0退化单一多个多个多个0网络描述0编码器GAN先验解码器0编码器CS-SFTGAN先验0编码器连接GAN先验0参数188.29M 90.76M 71.21M 66.69M0GAN先验固定固定微调/0首先，GLEAN[4]是针对单一上采样因子的图像超分辨率提出的，而GFPGAN和GPEN可以处理多个退化。从表1中我们可以观察到，GLEAN在SR方面严重依赖额外的模块。具体而言，GLEAN利用RRDBNet[33]进行特征提取，然后将固定的GAN先验与额外的解码器相结合，生成最终的输出。因此，GLEAN的参数数量明显多于其他方法。类似地，GFPGAN[30]采用了一个额外的UNet[27]，通过L1损失进行退化去除，然后将Unet中的特征转换为缩放和平移操作的参数，用于修改固定的GAN先验。利用预训练的GAN先验，GLEAN和GFPGAN在训练开始时可以获得比其他方法更好的性能（见图2）。与之不同的是，GPEN [35]直接连接了0从编码器和GAN先验中提取特征。由于连接操作向GAN先验引入了新的参数，GPEN为GAN先验设置了较小的学习率以进行进一步微调。然而，如图2所示，这种策略导致收敛速度慢且性能劣于其他方法。0图2. GCFSR（我们的方法），GFPGAN [30]，GPEN [35]和GLEAN[4]的收敛曲线。x和y轴分别表示训练迭代次数（k）和CelebA-HQ上的FID分数，用于64×SR。0总之，先前基于GAN先验的方法要么设计复杂的模块来修改固定的GAN先验，要么进一步微调GAN先验以进行适应。这些观察结果表明，在人脸恢复/超分辨率中利用GAN先验并不是一项简单的任务。如果是这样的话，我们能否设计一个不依赖预训练的GAN先验的新生成模型？因此，在这项工作中，我们提出了一个非常简洁的架构——不带额外先验的GCFSR。从图2中可以看出，端到端可训练的GCFSR收敛速度快，并且优于最先进的基于GAN先验的方法。03.2. GCFSR概述0给定输入的LR人脸图像x =↓s(y)和上采样因子s，GCFSR旨在估计尽可能接近其真实值y的SR人脸图像^y。为了实现这个目标，GCFSR学习一个映射函数G(x, s) →y，其中s来自一组上采样因子（例如，s∈{4, 8, 16, 32, 64}），y的大小为2u。0（例如，512,1024）。另一方面，目标上采样因子s对应于在下采样过程中生成缺失细节的强度。在测试过程中，可以通过连续改变条件上采样因子s来平滑调整生成强度。GCFSR的整体框架如图3所示。总的来说，它由一个编码器网络和一个生成器网络组成。编码器网络将LR人脸图像x作为输入，并粗略提取人脸结构。它还估计W+空间[20]中的潜在代码w用于生成过程。生成器网络通过一系列样式调制卷积[20]，将最顶层的编码特征图以及潜在代码w转换为逼真的人脸细节。为了处理广泛范围的w = [w(l), w(l+1)1,2, . . . ], in W+ space. The latent codes arefurther used by a style-based generator to generate realisticfacial details.18920样式调制样式调制样式调制0特征0调制0特征0调制0特征0调制0MLP0tRGB tRGB tRGB0上上0D VGG0上采样0因子0特征调制0卷积0生成器0输入SR HR0图3. GCFSR的架构。它包含一个编码器（红色）和一个生成器（绿色和蓝色）。编码器网络使用几个步幅卷积层来提取多级特征和潜在代码w。生成器采用最顶层的编码特征图和潜在代码 w来通过一系列样式调制的卷积[20]生成逼真的面部细节，即这里的样式调制（绿色）。而特征调制（蓝色）模块控制着在给定条件的上采样因子 s下编码和生成的特征的表达程度。我们以端到端的方式训练整个网络。（有颜色的块是从头开始训练的，而其他块是固定的或不包含可训练参数。）0为了适应上采样因子，我们从提取的结构特征到相应的生成特征添加了跳跃连接。具体而言，我们在每个级别上的特征调制模块控制着在给定条件的上采样因子 s下编码和生成的特征的表达程度。这两个网络密切合作，产生具有高保真度的逼真结果，并为用户调整提供了灵活性。该框架可以在一个优雅的端到端方式中进行训练，无需任何复杂的学习目标进行GAN先验预训练或微调。我们的方法可以在只使用对抗损失进行小尺度上采样因子（4、8）时获得视觉上令人满意的结果。在添加L1和感知损失后，我们的方法可以在大尺度上采样因子（16、32、64）上实现最先进的性能。03.3. 编码器网络0编码器网络是一个简单的卷积神经网络（CNN），步幅为2。中间特征用 { . . . , f(l+1), f(l) }表示，其中上标表示特征大小的以2为底的对数。最顶层特征图 f(l) 的大小为2^l。输入的低分辨率图像经过双三次插值调整大小为2^u，即 ↑ � (x) ∈ R 2^u × 2^u × 3。形式上，我们定义为0f(i) =0w = [w(l), w(l+1)1, 2, . . . ], 在 W +空间中。潜在代码进一步被一个基于样式的生成器用于生成逼真的面部细节。0其中 Conv表示带有偏置和激活的卷积层。编码特征用于携带输入图像的多级结构信息。此外，我们在最顶层特征上添加了几个卷积层和一个全连接（FC）层来估计潜在代码。0w = 重塑(全连接(卷积 ∙ ∙ ∙ (f(l))))) . (2)03.4. 生成器网络0生成器采用最顶层的编码特征图和潜在代码 w来通过样式调制生成逼真的面部细节。特征调制控制着在每个级别上编码和生成的特征在给定条件的上采样因子 s下的表达程度。我们将在下面详细介绍这两个模块的细节。0样式调制。样式调制卷积是在StyleGAN2中提出的[20]。它使用一个潜在向量来调制输入通道维度上的卷积核。为了近似保持输入和输出神经元之间的方差，卷积核在进行卷积之前进行通道智能归一化。输出中添加了偏置、噪声和激活。（更多细节请参考原论文。）我们用 Conv sm来表示整个模块。生成从一个4×4的常数特征图 c开始。特征图 g(i) 通过上采样 ↑2 和 Conv sm逐渐增长。在我们的方法中，我们对适应SR任务进行了几处修改。首先，我们不再从小的常数特征图重新生成。相反，我们用最顶层的编码特征来替换它，即 c = f(l)，并让 l等于最小输入尺寸。然后，我们提出的特征调制将多级编码特征（{ . . . , f(l+1), f(l) }）和生成特征（{ . . . , g(l+1), g(l)}）在上采样因子的条件下进行融合。�Convsm(c, w(l)),i = l,Convsm(Convsm(↑2(h(i−1)), w(i)1 ), w(i)2 ),i > l.(3)12adjust the contributions of f (i) and g(i), where chan(i) de-notes the dimension of feature channel. To satisfy the as-sumption of unit-variance activations in the style modula-tion [20], we add a Conv layer after each f (i) to initiallyadjust the activations, and normalize the scaling vectors tobe positive and to have channel-wise unit L2 norm. For-mally, we define the feature modulation as followsσ(i)enc/gen =|σ(i)1/2|σ(i)12 + σ(i)22 + ϵ,l ≤ i ≤ u,(4)ˆy(i) =Gl11percLperc + λadvLadv,G.(7)18930s。融合结果用h(i)表示。因此，生成器可以从编码和生成的特征中受益，并且不需要从头开始生成所有内容。形式上，我们定义风格调制如下：0g(i) =0特征调制。为了在单个模型中处理多因素SR，输入信息的保留量和输出细节的生成量可能因上采样因子而异。对于不同的SR任务，通过添加/连接跳跃连接很难满足一致性和生成能力的各种要求。因此，我们提出了特征调制来灵活调整生成强度。首先，将上采样因子s通过MLP转换为一组缩放向量σ = {σ(l)1, 2, σ(l+1)1, 2, ...}。在0σ = Reshape(MLP(s)) ,0h(i) = σ(i)enc ∙ Conv(f(i)) + σ(i)gen0其中ϵ = 1e-8，最后两个方程都是逐通道操作。0输出。输出图像通过融合特征h(i)逐步计算，通过tRGB层[20]。我们上采样并求和所有中间的RGB输出，得到最终输出，ˆy = ˆy(u)：0� tRGB(h(i)) , i = l, ↑ 2(ˆy(i−1)) + tRGB(h(i)) , l< i ≤ u. (5)03.5. 训练细节0回想一下，GCFSR将LR图像x和条件上采样因子s作为输入，并估计SR人脸图像ˆy = G(x,s)。我们通过对真实图像进行下采样，然后通过双三次插值将其上采样到原始尺寸来创建LR图像。在训练过程中，上采样因子s从{4, 8, 16, 32, 64}中随机选择，并归一化到[0,1]的范围内。0GCFSR可以通过对抗损失进行良好的训练，其中y和ˆy =G(x,s)被视为真实和伪造的图像。我们使用非饱和逻辑损失：0Ladv,D = Ey,s [log (1 + exp (−D(y)))0Ladv,G = Ey,s [log (1 + exp (−D(G(↓s(y), s))))] . (6)0如表4所示，我们的GCFSRadv只使用对抗损失进行训练，在4×和8×的SR任务中优于其他盲目人脸修复方法。为了进一步提高SR性能，我们使用传统的组合：L1、感知[14]和对抗损失。总体训练目标如下：0LD = λadvLadv,D ,0超参数设置为：λl1 = 1，λperc = 0.01，λadv =0.01。D和G分别被训练以最小化LD和LG。尽管GCFSR是从头开始训练的，但它收敛速度快（见图2），并在基于GAN先验的方法中实现了最佳性能。03.6. 测试0在测试过程中，给定的LR图像的放大因子不一定严格在{4，8，16，32，64}的集合中。一个副产品是，GCFSR可以在[4，64]范围内实现连续的SR效果。鼓励用户调节因子s以获得具有不同生成力的各种超分辨图像，并在调节过程中找到最佳结果。例如，给定一个因子为48的LR图像，用户可以在s = 32和s =64之间找到满意的结果。如图1，5所示，调节过程产生了平滑的过渡而没有产生伪影。04. 实验0数据集和实现我们在FFHQ数据集[19]上训练了我们的GCFSR，该数据集包含70k个高质量的1024×1024人脸图像。对于测试数据集，我们按照GLEAN[4]的方法从CelebA-HQ[16]数据集中提取了100个图像。我们使用双三次插值进行降采样/上采样。对于评估，我们采用了广泛使用的非参考感知度量：FID[12]和NIQE[24]。我们还采用了像素级度量（PSNR和SSIM）和感知度量（LPIPS[40]）。此外，我们还在ArcFace[7]嵌入空间上测量余弦相似度。训练的小批量大小设置为24。我们通过水平翻转来增强训练数据。我们使用Adam优化器对模型进行了总共300k次迭代的训练。生成器和判别器的学习率都设置为2×10−3。我们使用PyTorch框架实现了我们的模型，并使用NVIDIA Tesla V100GPU进行训练。x64x32x1618940mGANprior PULSE 输入 GT0图4.CelebA-HQ上的定性比较，分别为16×（第一行），32×（第二行），64×（第三行）的SR。GT图像（右侧）的分辨率为1024^2。放大以获得最佳视图。表2.CelebA-HQ上与最先进方法的定量比较，分别为16×，32×，64×的SR。GLEAN使用三个模型，而其他方法只使用一个模型进行三个SR任务。红色和蓝色表示最佳和次佳性能。相似度表示ArcFace嵌入的余弦相似度。016×（64^2→1024^2）32×（32^2→1024^2）64×（16^2→1024^2）0PSNR ↑ SSIM ↑ LPIPS ↓ FID ↓ 相似度 ↑ PSNR ↑ SSIM ↑ LPIPS ↓ FID ↓ 相似度 ↑ PSNR ↑ SSIM ↑ LPIPS ↓ FID ↓ 相似度 ↑0PULSE [23] 20.08 0.6032 0.4651 77.89 0.4947 19.63 0.5848 0.4789 78.26 0.5177 18.52 0.5604 0.5119 91.55 0.4680 mGANprior [11] 23.80 0.6674 0.4668 100.870.6794 21.26 0.6117 0.5099 105.62 0.5230 18.69 0.5721 0.5530 108.17 0.4397 GLEAN [4] 26.88 0.6953 0.2693 29.99 0.9682 24.34 0.6534 0.3257 46.57 0.7750 21.380.6016 0.4109 62.93 0.6118 GPEN [35] 26.51 0.6988 0.2827 37.94 0.9473 24.65 0.6717 0.3340 50.40 0.7641 22.20 0.6291 0.3906 67.50 0.5978 GFPGAN [30] 27.070.7101 0.2716 34.49 0.9623 24.81 0.6751 0.3128 46.00 0.7881 22.26 0.6285 0.3675 59.33 0.65580GCFSR（我们的方法）27.17 0.7100 0.2604 30.48 0.9631 24.95 0.6748 0.3061 43.34 0.7911 22.39 0.6315 0.3663 57.15 0.66200与最先进方法的比较。我们将我们的GCFSR与几种最先进的方法进行比较：包括PULSE [23]和mGANprior[11]在内的GAN反演方法，以及包括GLEAN [4]，GFPGAN[30]和GPEN[35]在内的基于GAN先验的方法。我们提供了16×，32×，64×SR任务的定量和定性结果。请注意，GLEAN是为单个放大因子的SR任务设计的，因此我们为不同任务训练了三个GLEAN模型。为了公平比较，我们将GFP-GAN，GPEN和我们提出的GCFSR在相同的训练数据集上训练，以达到相同的学习目标。在GFP-GAN中，GAN先验的参数在训练过程中保持不变，而在GPEN中，GAN先验的参数给出了较小的学习率（2×10−4），如[35]所建议。定量结果如表2所示。可以看出，我们的GCFSR在所有三个放大因子的PSNR和LPIPS方面都取得了最佳性能，表明GCFSR在具有高感知质量的图像重建能力方面具有优势。尽管GLEAN是在单个放大因子上训练的，但它只在16×SR上表现良好。由于GLEAN在网络设计中采用了简单的渐进上采样策略而没有任何跳跃连接，因此当放大因子较大时，无法保证重建质量。另一方面，GAN反演方法PULSE和mGANprior实现了0与基于GAN先验的方法相比，GAN反演方法的结果明显较差，因为它们很难通过简单的潜在代码探索策略来保持身份。我们在图4中还展示了定性结果。观察到GAN反演方法无法保持良好的保真度，而基于GAN先验的方法在保持身份方面取得了整体令人满意的结果。然而，如图4中的第二行所示，由于GAN先验在训练过程中是固定的，GLEAN和GFPGAN无法保持眼睛的原始颜色。GPEN的表现比它们好，但仍然存在一些失真。总的来说，我们提出的GCFSR方法在所有这些方法中能够同时实现保真度和自然性的最高质量。更多的视觉比较结果可以在补充文件中找到。0对生成强度调制的评估。在本节中，我们通过图1和图5提供定性结果，以说明我们的GCFSR能够在不同级别上平滑调制生成强度。在图中0当目标放大因子32在预定义集合{4, 8, 16, 32,64}中时，我们可以直接指定条件放大因子为s=32，并获得具有高感知质量的SR结果。此外，我们可以调节s在s=32附近，获得模糊效果（s=24）或者DFDNETPSFRGAN24.660.64390.419943.330.6464GPEN24.630.64770.400441.990.6993GFPGAN24.650.67250.364642.610.71560.00.51.0x4x8x16x32x64051015202530350.00.51.0x4x8x16x32x64050100150200r)18950输入 s=4 s=16 s=24 s=32 s=40 s=640x480x240图5.通过调节生成强度获得的结果。我们连续将条件放大因子s从s=4变化到s=64，并在两端之间找到令人满意的结果（例如黄色矩形所示）。放大以获得最佳视图。0强生成效果（s=48）。对于未预定义的目标放大因子，我们仍然可以通过调制获得令人满意的结果。图5的第一行中的LR图像是通过24倍缩小。可以看到，在s=24和s=32之间调制的结果（黄色矩形所示）都是令人满意的。类似地，对于通过48倍缩小的LR图像，我们可以在[48,64]的范围内连续调节条件放大因子s，然后得到一个具有生动和自然纹理细节的点（例如s=48）。调制过程产生平滑的过渡，没有任何明显的伪影。更多结果请参见补充文件。0在本节中，我们研究了我们的方法在盲目人脸修复（BFR）任务上的有效性。为了创建我们的GCFSR的盲目版本，我们将放大因子s固定为一个常数值（例如1）。根据[30]的建议，我们使用来自CelebA-HQ测试分区[16]的3,000个CelebA-HQ图像创建CelebA-Test。FFHQ和CelebA-Test数据集的所有图像都被调整为512x512。然后，我们采用GFPGAN[30]中的退化模型来合成训练和测试输入图像。请注意，我们直接使用最先进的盲目人脸修复方法的官方发布模型：DFDNET[22]，PSFRGAN[5]，GPEN[35]和GFPGAN[30]。定量结果如表3所示。观察到我们的盲目模型在PSNR、SSIM、LPIPS和ArcFace嵌入的余弦相似度方面都能取得最佳性能。此外，我们在FID方面也能获得可比较的结果。这表明我们的方法在盲目人脸修复方面的有效性。0特征调制的分析和可视化。在本节中，我们研究了缩放向量如何通过不同的条件放大因子实现有效的特征调制的机制。正如我们之前提到的，缩放向量σ enc和σ gen通道-0表3.盲目人脸修复在CelebA-Test上的定量比较。红色和蓝色分别表示最佳和次佳性能。相似性表示ArcFace嵌入的余弦相似度。0PSNR ↑ SSIM ↑ LPIPS ↓ FID ↓ 相似性 ↑0我们的方法 26.49 0.7120 0.3356 42.23 0.72570明智地调整编码器和生成器的特征。这里我们提供了与级别64 对应的缩放向量的直方图：σ 64 编码器和 σ 64生成器，如图 6 所示。对于 σ 64编码器，随着条件上采样因子 s 的增加，其值逐渐接近 0。相反，σ 64 生成器的值逐渐接近 1。这表明更高的条件上采样因子对应于更强的生成效果，因为来自编码器的特征被削弱，而来自解码器的特征被加强。类似的趋势可以在其他级别上找到，见补充文件。064x64 (编码器) σ 64 生成器0图6.特征调制的可视化。展示了不同条件上采样因子对应的缩放向量 σ64 编码器和 σ 64 生成器的直方图。4× (1282 → 5122)PSNR ↑SSIM ↑LPIPS ↓NIQE ↓FID ↓GFPGAN [30]27.320.76860.14214.4236.76GPEN [35]27.100.75930.15344.1843.81HiFaceGAN [34]27.390.73970.14094.0630.28DFDNet [22]26.470.78020.18384.4145.80PSFRGAN [5]27.240.76070.16114.7935.858× (64→ 512 )PSNR ↑SSIM ↑LPIPS ↓NIQE ↓FID ↓GFPGAN [30]25.630.70690.17364.2642.88GPEN [35]25.940.70380.18484.3147.32HiFaceGAN [34]25.470.67740.22943.6161.52DFDNet [22]25.030.70230.23134.6052.98PSFRGAN [5]24.900.68710.20854.5847.1018960表4. GCFSR adv (仅使用对抗损失进行训练)与最先进的盲目人脸修复方法在CelebA-HQ上进行 4 × , 8 ×SR的定量比较。红色和蓝色分别表示最佳和次佳性能。0GCFSR adv (我们的方法) 27.81 0.7711 0.1210 3.84 27.900GCFSR adv (我们的方法) 26.02 0.7139 0.1704 4.14 39.990学习目标的影响。我们的GCFSR非常容易训练，并且在大幅度图像超分辨率方面能够达到最先进的性能。在本节中，我们将展示我们的GCFSR仅通过使用对抗学习（不使用像素损失或感知损失）就能够在小幅度图像超分辨率（ 4 × , 8 ×）上获得出人意料的好结果。我们将我们的GCFSR adv与盲目人脸修复（BFR）方法进行比较：GFPGAN [ 30]，GPEN [ 35 ]，DFDNet [ 22 ]，PSFRGAN [ 5]和HiFaceGAN [ 34]。请注意，大多数上述方法仅发布了输出尺寸为 512 ×512 的模型。因此，为了方便比较，我们在调整大小为512 × 512 的FFHQ训练数据集上训练我们的GCFSRadv，并在调整大小为 512 × 512的CelebA-HQ数据集上进行测试。上采样因子 s 是从 { 4, 8 , 16 , 32 } 中随机采样的。定量结果见表 4。观察到我们的GCFSR adv优于盲目人脸修复方法的性能。我们还在补充文件中展示了视觉比较。0风格调制的效果。在这里，我们展示了风格调制模块的有效性。正如我们之前提到的，潜在编码 w是由编码器估计的，并将用于生成器中的风格调制。与GAN反演方法不同，这些方法利用潜在编码 w生成全局属性（例如姿势）和更细节的细节，我们的 w更与后者相关。从图 7可以看出，使用风格调制的结果具有更真实的细节（例如睫毛和头发）和更少的伪影（例如嘴巴生成的糟糕情况）。更多结果请参见补充文件。此外，我们在补充文件中提供了定量结果。总体而言，风格调制模块在大多数指标上提高了整体性能。0x640x320x160w（我们的）0图7.GCFSR带有风格调制模块和不带风格调制模块在CelebA-HQ上的视觉比较，用于64×（第一行），32×（第二行）和16×（第三行）超分辨率。放大以获得最佳视图。05. 结论0我们提出了一种名为GCFSR的人脸超分辨率框架，无需任何额外的先验知识，但可以处理非常大倍数的人脸超分辨率（高达64×）。GCFSR具有编码器-生成器架构，并且可以端到端地进行训练，收敛速度快。特别是，提出的风格调制模块有助于生成逼真的人脸细节，而特征调制模块在条件上采样因子的控制下动态融合多级编码特征和生成的特征。通过这种方式，我们的GCFSR可以重建出具有有希望的身份信息的忠实图像，并提供用户调整的灵活性。0局限性：我们的工作有几个局限性。首先，这项工作只研究了关于上采样因子的单一维度调制。而在现实世界的场景中，应考虑跨多个退化的多维调制。其次，尽管我们的框架在人脸超分辨率任务上表现出色，但其在一般超分辨率上的泛化性有待研究。0致谢：本工作部分得到中国国家自然科学基金（61906184），中国科学院-香港联合实验室，深圳研究计划（RCJC20200714114557087），中国上海市科技委员会（项目编号21DZ1100100）的支持。18970参考文献0[1] Andrew Brock, Jeff Donahue, and Karen Simonyan.大规模GAN训练用于高保真度自然图像合成。在国际学习表示会议上，2018年。20[2] Adrian Bulat and Georgios Tzimiropoulos. Super-fan:集成面部标志定位和任意姿势下真实低分辨率人脸的超分辨率。在IEEE计算机视觉和模式识别会议上，页码109-117，2018年。20[3] Qingxing Cao, Liang Lin, Yukai Shi, Xiaodan Liang, andGuanbin Li.基于深度强化学习的注意力感知人脸超分辨率。在IEEE计算机视觉和模式识别会议上，页码690-698，2017年。20[4] Kelvin CK Chan, Xintao Wang, Xiangyu Xu, Jinwei Gu, andChen Change Loy. Glean:用于大倍数图像超分辨率的生成潜在库。在IEEE/CVF计算机视觉和模式识别会议上，页码14245-14254，2021年。2, 3, 5, 60[5] Chaofeng Chen, Xiaoming Li, Lingbo Yang, Xianhui Lin,Lei Zhang, and Kwan-Yee K Wong.盲目人脸修复的渐进语义感知风格转换。在IEEE/CVF计算机视觉和模式识别会议上，页码11896-11905，2021年。2, 7, 80[6] Yu Chen, Ying Tai, Xiaoming Liu, Chunhua Shen, and JianYang. Fsrnet:基于面部先验知识的端到端学习人脸超分辨率。在IEEE计算机视觉和模式识别会议上，页码2492-2501，2018年。20[7] Jiankang Deng, Jia Guo, Niannan Xue, and StefanosZafeiriou. Arcface:深度人脸识别的加性角度边缘损

下载后可阅读完整内容，剩余1页未读，立即下载