基于多样本和自适应特征融合的人脸恢复方法

61 浏览量更新于2023-10-25 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2706基于多样本图像和自适应空间特征融合的李晓明1，李文宇1，任东伟2，张宏志1，王梦3，王梦左1（R）1哈尔滨工业大学计算机科学与技术学院2天津大学智能与计算学院3合肥工业大学，中国{csxmli，wmzuo}@ hit.edu.cn摘要在许多真实世界的人脸恢复应用中，智能手机相册和旧胶片，同一个人的多个高质量（HQ）图像通常可用于给定的降级低质量（LQ）观察。然而，现有的引导式人脸复原方法大多基于单幅HQ样本图像，在适当利用引导提高对未知退化过程的泛化能力方面存在局限性。针对这些问题，本文提出利用多样本图像和自适应融合制导图像和退化图像的特征来提高盲人脸恢复性能。首先，给定一个退化的观察，我们选择最佳的指导的基础上的加权仿射距离的地标集，其中的地标权重是学习，使引导图像优化HQ图像重建。其次，利用移动最小二乘和自适应实例归一化进行引导图像在特征空间中的空间对准和照明平移。最后，为了更好地进行特征融合，引入了多个自适应空间特征融合（ASFF）层，以自适应和渐进的方式结合制导特征，从而形成了我们的 ASFFNet 。实验表明，我们的ASFFNet表现良好的定量和定性评价方面，是有效的，在现实世界的LQ图像生成照片般逼真的结果。源代码和模型可在https://github.com/csxmli2016/ASFFNet 上获得。1. 介绍视觉质量一直是人类感知和视觉理解的高度关注的问题之一，而近年来，视觉内容的获取和共享取得了迅速的进展。一方面，在图像采集和显示技术发展的推动下，越来越多的高质量（HQ）视觉媒体[24]第24话我的世界(a) 真实世界LQ图像的恢复结果。[24]第24话我的世界(b) 从一个老电影帧的恢复结果。图1：基于样本的人脸恢复方法的比较。右下角的特写是每种方法的选定指南(b)显示了从旧电影中恢复帧的结果。一个生动的人物出现在我们的供应。目前可用。另一方面，由于采集设备的多样性、环境的影响以及物体的运动，低质量（Low Quality，LQ）图像和视频仍然普遍存在，并且在大多数实际应用中不可避免。图像恢复的目的是从退化的LQ观测值中估计干净的HQ图像[1，5，33]，并且在计算机视觉中仍然是一个有价值的研究课题。在这项工作中，我们专注于任务的盲人脸识别与多个HQ样本图像从同一个人。HQ人脸图像在娱乐、监控、人机交互等方面有着重要的应用，使得人脸恢复变得非常复杂。2707适合多种视觉任务。幸运的是，得益于面部图像的普遍获取和共享，同一个人的多个HQ样本图像很可能可用于给定的降级的LQ面部图像。同时，人脸识别的空前成功可以被利用来找到HQ样本图像。例如，智能手机相册中的人脸图像通常根据身份进行分组。对于老电影，找到几个主要演员的高清样本图像也是实际可行的，然后可以利用这些图像来指导视频帧中LQ退化人脸图像的增强。多样本引导的引入可以大大减轻退化估计和图像恢复的难度，从而为改进盲人脸恢复提供了新的视角。最近，已经提出了几种基于样本的人脸恢复方法[9，24]。然而，大多数现有的方法，GFRNet [24]和GWAINet [9]基于单个HQ样本图像，未能利用多个HQ样本图像来改善面部恢复。因此，性能下降可能会发生时，指导和退化的图像是非常不同的姿态。此外，GFRNet [24]和GWAINet [9]使用直接级联来组合退化观测和扭曲制导，这在适应各种退化设置方面受到限制，并且对具有未知退化过程的真实世界LQ图像表现出较差的泛化能力。图1（a）示出了真实世界退化图像的恢复结果。GFRNet [24]和GWAINet [9]不仅在从引导图像重建睫毛和牙齿的细节方面，而且在从退化观察中去除噪声在本文中，我们提出了一个ASFFNet，以解决上述问题，利用多样本设置和适当的组合功能，从指导和降级的图像。首先，我们研究了从多个HQ样本中选择最优制导图像的问题。直觉上，具有相似姿势和表情的样本在降级观察时更受青睐。因此，我们制定了最佳的指导选择作为一个加权最小二乘（WLS）模型定义的地标集，其中不同的权重被分配给不同的面部部位，如眼睛和嘴。此外，学习的地标权重，使所选择的引导图像被优化的恢复性能。其次，我们进一步研究的对准和融合问题的指导和退化的图像。在[9，24]中，通常需要扭曲子网来进行空间对准。至于我们的方法，姿势差异可以通过引导选择在很大程度上得到改善，因此我们可以利用移动最小二乘（MLS）[34]来对齐特征空间中的引导和退化图像。然后，利用自适应实例归一化（AdaIN）[16]来翻译引导图像的照明。采用多个自适应空间特征融合（ASFF）块代替直接拼接，以自适应渐进的方式将制导图像和降质图像的特征进行融合。在每个ASFF块中，考虑面部标志、引导和恢复特征以生成用于引导自适应特征融合的注意掩模。当应用于现实世界的情况下，注意掩模仍然是有效的，找到在哪里纳入指导功能，使我们的ASFF表现出良好的泛化能力，以未知的退化。实验进行评估我们的ASFFNet合成和真实世界的退化图像。定量和定性结果表明，我们的ASFFNet表现优于最先进的方法[9，24]。如图1，我们的ASFFNet对复杂和未知的退化过程表现出良好的这项工作的主要贡献包括：• 为了利用多个样本图像，我们采用了WLS模型在界标集上选择最优引导图像，并学习界标权重以优化重建性能。• 为了补偿引导图像和退化图像之间的姿态和照明差异，利用MLS和AdaIN来执行空间对准以及特征空间中的照明平移。• 为了结合制导图像和降级图像的特征，引入多个ASFF块进行自适应和渐进融合，从而得到我们的ASFFNet。• 实验证明了我们的ASFFNet与最先进的[9，24]相比的优越性，并且还显示了其在处理真实世界LQIM方面的潜力。从几个实际应用中得出。2. 相关工作2.1. 深度人脸图像恢复近年来，深度CNN在几个人脸图像恢复任务中取得了前所未有的成功，例如，去模糊[8，35，39，44]和超分辨率[6，15，47]。在面孔幻觉方面，Huanget al.[15]提出了一种基于小波的CNN模型，该模型预测小波系数，用于从非常低分辨率的人脸图像重建高分辨率结果。Cao等人[6]提出了一种基于强化学习的人脸幻觉方法，通过递归策略网络指定下一个关注区域，然后通过局部增强网络恢复至于盲脸去模糊，Chrysoset al. [8]通过利用有据可查的面部结构开发了一种特定于领域的方法Xu等[39]提出了一种用于面部和文本去模糊的生成对抗网络（GAN）。Shen等人[35]将全局语义面部先验纳入2708KKk k k=1更好地恢复人脸图像的形状和细节。一般来说，现有的单图像恢复方法一般化不佳，现实世界中的LQ人脸图像，由于固有的不适定性和各种未知的退化。2.2. 基于样本的深度图像恢复与单幅图像复原相比，样本图像的引入可以大大降低图像复原的难度，通常可以显著提高图像复原的性能。在引导深度图像增强中，假定颜色引导图像与退化的深度图像在空间上对准。已经提出了几种CNN方法[14，17，25]来从强度图像中转移结构细节以增强深度图像。然而，对于盲脸恢复，在其他视觉任务中采用，如图像处理[22]和化妆转移[18]。在语义图像合成中，Parket al.[29]提出了一种空间自适应去归一化（SPADE）方法，用于通过学习空间变换来调节激活。对于特征融合，已引入门控模块[32，44]来估计用于组合来自不同来源的特征的加权图在这项工作中，特征翻译和融合被认为是提高我们的ASFFNet的恢复性能和泛化能力。3. 该方法首先，多样本人脸盲复原被定义为从一组降阶的face图像Id中重建HQ图像I_h的任务，并且退化图像通常具有不同的姿态。使用示例图像{Ig}K. 在不失去一般性的情况下，我们k k=1具有类似内容的参考图像，Zhanget al.[46个]采用了一种耗时耗内存的搜索方案，在特征空间中对齐高分辨率制导和低分辨率降级块。基于示例的方法[9，24]也被用于盲脸恢复，其中扭曲子网通常是假设Ih、Id和Ig具有相同的图像大小256×256当图像大小不同时，我们只需使用双三次采样将其调整为256×256。使用界标检测器[4]，我们进一步为每个图像呈现 68 个界标，包括 L d ， L g∈R2× 68（k=1，.，K）。然后，所提出的盲人脸恢复模型可以被公式化为，在空间上对准制导，.hdDΣg gK图像. Li等[24]《明史》卷144：我=F我|L，{Ik，Lk}k=1;Θ、（1）使用界标丢失和总变分正则化来训练翘曲子网。随后，Doganet al. [9]提出了一种GWANet，它可以在训练过程中无需面部标志就可以学习。此外，GWANet[9]在多个卷积层上采用特征融合链来组合来自翘曲制导和退化图像的特征然而，GFRNet和GWANet都基于单个样本图像，而在许多现实世界的应用中通常可以使用多个HQ样本此外，当应用于真实世界的退化图像时，[9，24]中的基于级联的融合在将来自引导的细节转换到重建图像方面仍然受到限制2.3. 自适应特征调制GFRNet [24]和GWANet [9]采用基于级联的融合，其不考虑翘曲制导和退化图像之间的照明差异和空间变化。在任意风格转换中，自适应实例规范化（AdaIN）[16]已被建议将内容图像转换为所需的风格。Perez等人[31]提出了一种FILM方法，用于从调节信息中学习特征仿射变换，以调制网络然而，AdaIN[16]和FiLM [31]中的特征调制是空间不可知的，并且不足以转换和融合用于面部恢复的扭曲引导特征。对于空间自适应特征调制，Wanget al. [36]提出了一种用于以分割图为条件的超分辨率的空间特征变换（SFT）方法。除了超分辨率[13，36]，SFT还其中Id是输入，Ld，{Ig，Lg}K是条件变量，Θ表示模型参数。在多样本引导下，可以对HQ图像进行重构。通过将来自降级输入的恢复和HQ指南的翻译的信息相结合来构建。图2说明了拟议的ASFFNet的网络结构，特别是，我们着重解决三个问题，即，导航选择、空间对准和照明平移以及自适应特征融合。首先，提出了一种WLS模型，用于从样本图像集中选择引导图像。其次，考虑到在引导选择之后可以在很大程度上减轻姿态差异，我们可以利用MLS和AdaIN重新定位来进行引导图像在特征空间中的空间对准和照明平移由于MLS对齐是可区分的，因此特征提取子网也可以在训练期间端到端学习。最后，多个ASFF块被合并，以将变形的引导特征与从退化图像恢复的特征相结合。在下文中，我们首先描述了处理这三个问题的方法，然后给出了训练整个网络的学习目标。有关网络架构的更多详细信息，请参阅suppl.3.1. 指南选择对于大多数引导式人脸恢复方法，性能会因引导图像和退化图像之间的姿态和表情差异而降低。这是自然的，2709k，mk，mKMKKk，m图2：我们的ASFFNet概述。选择与退化图像具有相似姿态和表情的最佳引导图像。在相似性度量方面，我们通过求解一个加权最小二乘（WLS）模型，采用标志点集之间的加权仿射距离。同时考虑到姿态和表情，对地标赋予不同的权重。然后，通过寻找最小加权仿射距离来确定最优引导图像，伪影的重建结果。在GFRNet [24]和GWAINet [9]中，采用扭曲子网来在空间上对齐引导和退化图像。然而，翘曲子网通常难以训练，并且由于缺乏直接的监督信息而可能表现出较差的泛化能力此外，制导图像和退化图像通常具有不同的光照条件，在进行特征融合时也应考虑这一点在这k*=argmin、D2（Ld，Lg）=minΣ68 W ¨-ALg¨，−Ld？2 、（二）工作中，我们采用MLS方法进行空间对齐，用于照明翻译的AdaIN，将对其进行描述KAK米一m=1k，mm¨如下其中Da（Ld，Lg）表示仿射距离，并且MLS对齐。而不是学习扭曲子-kdg注意第m个界标的权重Lm和Lk，mde-注意退化图像的第m个界标和第k个引导图像的第k个界标。特别是，L是HO-G。net，我们建议利用传统的图像变形方法，即，移动最小二乘（MLS），以在特征空间中对准引导图像和退化图像受益Lg的齐次表示（例如，位置[x，y]T从引导选择、姿势和表情差异gk，mG定义为[x，y，1]T，在L中， [11]）。给定Ld，可以大大减少。此外，由于差异-MLS的能力，特征提取子网可以学习Lk，则A的封闭形式解可以写为，A=LdWLgT（LgWLgT）−1，（3）在训练过程中，使特征提取和MLS可以协同工作，以实现鲁棒的对齐。实验其中W=Diag（w）是界标权重向量w的对角矩阵。为了确定地标权重，给定退化的图像Id，我们列举所有的范例图像{Ig}K，还经验性地表明，MLS在退化图像和选择的引导图像的空间对准中工作良好用Fg和Lg表示最佳引导图像的特征和界标，并且Ld表示去引导图像的界标。k k=1并且找到具有最佳性能的一个，即，Ig，in梯度图像。对于给定的位置p=（x，y），我们引入-k*向前传播。然后，我们介绍以下内容导出一个68×68位置特定的对角矩阵Wp1与用于更新界标权重的辅助损失，第m个对角元素Wp（m，m）=p−Ld然后，w=Σ Max.0，1−.ΣΣD2（Ld，Lg）−D2（Ld，Lg）.（四）位置特定的仿射矩阵可以通过，阿k阿kM=LgWLdT（LdWLdT）−1，（5）k/=kP P P通过代以的封闭形式溶液的 A进入其中Ld是Ld的齐次表示。设p=D2（Ld，Lg），我们采用反向传播算法，Mpp∈N，N是p∈N =（x∈ N，y∈ N）的4-最近邻。的ak基于最小值w更新w。损失限制了所选的变形特征可以通过双线性插值获得，∂wΣ... Σ。.. Σ引导图像具有相对较小的仿射距离。Fg，w（x，y）=Fg（x′，y′）max0，1−.x−x′。max0，1−.y−y′。、对于给定的测试图像，界标权重是固定的，并且我们可以简单地使用Eqn。（2）选择引导图像。（x′，y′）∈N（六）3.2. MLS对齐和照明转换即使所选择的引导图像具有与退化观测相似的姿态和特征提取自适应特征融合重建FdFCAdain已降级映像Id结果Ih特征提取Fg，w自适应空间特征融合（ASFF）块WLSFGMLS减去产品总和退化特征Fd指南Igk*扩张复位块特征提取Conv.制导特征Fg，w，aConcat多个HQ示例{Ig，Lg}K地标特征Fl地标特征FlAttentionMaskFm1×1转换Conv. 无偏倚像素混洗Kk k=1Ld二值图像ASFF块ASFF块ASFF块ASFF块在L2710表达，误对准仍然是不可避免的，并且可能引入视觉干扰。其中（x，y）是在分级输入中的位置，而（x≠，y≠）是引导图像中的对应位置。我们注意到这个Eqns。（5）和（6）是可微的。因此，特征提取在训练期间也可以是端到端可学习的。AdaIN 对于任意样式的传输，AdaIN [16]是2711C H W介绍了将内容功能转换为所需的风格。类似地，我们将光照作为一种风格，利用AdaIN对变形后的引导特征进行调整，使其与退化图像的恢复特征具有相似的光照。由Fd和Fg，w表示来自退化图像的恢复特征和来自引导图像的变形引导特征。AdaIN可以写为，<$Fg，w−µ（Fg，w），F d，F g，w，a，F l，以及注意力掩模F m。与GFR-Net [24]和GWAINet [9]中基于级联的融合相反，ASFF是一种更灵活的融合方法，可以适应不同的降级设置和图像内容。类似于[9]中的多层级联，我们部署多个ASSF块以促进渐进融合。通过自适应和渐进融合，我们的ASFFNet可以表现出更好的通用性。Fg，w，a=σ（Fd）σ（Fg，w）+µ（Fd），（7）具有复杂的真实世界LQ人脸图像的化能力未知的降解过程。其中σ（·）和μ（·）表示平均值和标准de，通过-第用MLS和AdaIN，Fg，w，a因此可以对齐用空间和光照来表示3.3. 自适应特征融合经过MLS对准和AdaIN后，退化图像和制导图像之间的失调和照明差异因此，我们进一步结合变形的指导功能与恢复功能重建HQ图像。在GFRNet [24]中，引导图像和退化图像被连接为输入连接到重建子网GWAINet [9]也采用基于级联的融合，但在多个特征层中执行然而，基于拼接的融合仍然是有限的，利用制导和退化图像之间的互补性。因此，我们提出了多个自适应空间特征融合（ASFF）块，用于渐进地融合变形的引导和恢复的特征。给定ASFF块之后的组合特征Fc，我们进一步使用由两个像素混洗层组成的重建子网，每个像素混洗层后面跟着两个残差块。因此，可以通过以下方式获得最终结果，Ih=FR（Fc;ΘR），（9）其中ΘR是重建子网的参数。3.4. 学习目标由I和I表示重建图像和地面实况图像。通常，重建图像I需要忠实地近似地面实况图像I并且是照片真实的。因此，目标涉及两个损失函数，即，重建损失和真实感损失。引入重建损失来约束重建图像以逼近地面实况，这涉及两项。首先，均方误差（MSE）为用来测量I和I之间的差异，一方面，引导图像通常包含更多的高质量面部细节并且更可靠CIMSE=1CHW ǁIˆh−Iǁ2,(10)对于大多数面部组件。另一方面，考虑到Fg、w、a和Fd是空间变化的并且传达了互补信息，它们可以被组合以更好地重建HQ图像。考虑两个例子：（i）制导图像通常与退化图像具有不同的背景，因此从退化图像恢复的特征对于背景更可靠其中C、H和W表示图像的通道、高度和宽度。其次，为了提高重建图像的视觉质量，我们采用了在VGGFace [30]特征空间上定义的感知损失[19]。特别地，采用感知损失来约束重构图像I_（？）h以逼近特征空间中的地面实况IΣ41¨¨2地区(ii)当引导的口关闭时，（I、（11）的退化图像是开放的，我们应该重建牙齿percu=1尤尤uuu主要基于恢复的特征而不是变形的引导特征。因此，我们引入注意掩模Fm来指导Fg，w ，a和Fd的融合。当然，生成Fm时要考虑Fg，w，a，Fd和界标.并且我们采用具有输出Fl的界标特征提取子网。然后，我们以Fg，w，a，Fd和Fl为输入，利用门控模块产生注意力掩模Fm.为了提高效率，首先将1×1卷积应用于Fg、w、a、Fd和Fl来减少特征通道。最后，每个ASFF块的输出可以写为，FASFF（Fd，Fg，w，a）=（1 −Fm） <$Fd（Fd）+Fm<$Fg（Fg，w，a）=Fd（Fd）+Fm（Fg（Fg，w，a）− Fd（Fd）），（八）其中，VGGu表示来自预训练VGGFace模型的第u在这项工作中，我们设置u∈[1，2，3，4]。总重建损失公式为：Lrec=λMSEMSE+λpercperc，（12）其中λMSE和λperc是折衷参数。对于真实感重建，我们还考虑两个术语。首先，我们采用风格损失[12]，它可以用作对抗性损失的替代方案，并且可以有效地生成具有精细细节的视觉上合理的结果[26]。特别地，风格损失被定义在以下的Gram矩阵上：对于来自u∈[1，2，3，4]的每个层的特征图，Σ41¨ ¨2=<$其中◦表示元素级乘积。请参阅更新的详细体系结构的补充风格u=1尤尤菊湖湖uu（十三）2712第二，对抗性损失也被广泛用于许多图像生成和翻译任务，作为一种有效的方法来提高视觉质量。为了稳定卷积学习，我们使用SNGAN [28]，通过对每个卷积层的权重引入频谱归一化。此外，我们采用对抗损失的铰链版本来训练器和生成器[3，42]，其可以用公式表示为，adv，D=EI并且验证集在身份和图像方面都不重叠。为了进行灵活的定量评价，每个测试组需要恰好有10个样本图像。我们还在CelebA [27]和CASIA-WebFace [40]上构建了另外两个测试集，每组包含2，000个每组有3幅10个HQ样本图像。PSNR、SSIM [38]和LPIPS [43]被用作量化。定量性能指标。为了生成合成训练和测试数据，+EIhP（Ih）Σ Σmin（0，−1−D（Ih）），（十四）我们采用[24]中采用的退化模型，Σ . - 是的DDg gKΣΣΣId=（（Ik）↓s+nσ） JPEGq 、（十八）adv，G=−EId我|L，{Ik，Lk}k=1;Θ. （十五）其中，k表示卷积运算，k表示在这里，使用Gadadv，D来更新网络，而采用Gadv，G来更新ASFFNet以进行盲人脸恢复。然后，整体照片真实感损失可以写为，Lreal=λstylestyle+λadvadv，G，（ 16）其中λstyle和λadv是折衷参数。总而言之，总目标函数定义为，L=Lrec+Lreal。（十七）4. 实验所提出的ASFFNet可用于处理几种常见的退化类型，噪声、压缩伪影、模糊和下采样以及它们的组合。对于定量评估，我们使用×4和×8超分辨率（SR）的任务，并结合噪声和模糊-环作为例子，并将我们的ASFFNet与最先进的SR（例如，RCAN [45]和ESRGAN [37]）、盲去模糊（例如，DeflurGANV2 [21] ），面 SR （例如， TDAE [41] ，WaveletSR [15]，SCGAN [39]，GWAINet [9]，GFRNet [24]）方法。为了公平比较，我们重新训练*ESRGAN、*RCAN和 *SCGAN，以及使用我们的训练数据微调 *GFRNet和 *GWAINet值得注意的是，TDAE [41]和GWAINet [9]只能处理×8SR，ESRGAN [37]和SCGAN [39]只能处理×4SR。我们还给出了合成和真实的定性结果世界退化的人脸图像。更多的视觉效果在suppl.4.1. 数据集和实验设置使用VGGFace 2 [7]中的图像，我们构建了一个用于多样本指导图像的面部恢复数据集。拉普拉斯梯度用于评估图像质量，并去除那些分数低的图像。然后，我们使用[4]检测68个面部标志，裁剪并调整面部区域的大小到256×256基于凸壳的地标。通过基于身份对剩余图像进行分组，建立了包含106，000组人脸图像的数据集，其中每组有3× 10个HQ样本图像。此外，我们将其分为100，000组的训练集，4，000组的验证集和2，000组的测试集。我们还注意到，2713模糊核，↓s表示×s双三次下采样器，nσ表示具有噪声水平σ的高斯噪声，并且JPEGq代表具有质量因子q的JPEG压缩。特别地，我们考虑两种类型的模糊核，即，高斯模糊，其中θ∈{1：0。1：3}和来自[2，23]的32个运动模糊核。我们随机抽取了{1：0。1：8}，噪声水平σ来自{0：1：15}，压缩质量因子q来自{10：1：60}。根据[24]，退化模型可以生成真实的LQ用于训练引导式人脸恢复模型的图像。我们采用 ADAM 优化器 [20] 来训练我们的ASFFNet，批量大小为8，动量参数β1=0。5和β2=0。999初始学习速率为2×10-4，当重建时减少0.5验证集的损失是非递减的。几种常见数据扩充方法，例如，随机裁剪和水平翻转也在训练期间被利用色变，例如，亮度和对比度[48]也用于增加图像多样性。损失条款的权衡参数设置为：λMSE=300，λperc=5，λstyle=1，λadv=2。所有实验都在配备RTX 2080 Ti GPU的PC上进行，训练ASFFNet模型大约需要3天。4.2. 消融研究使用VGGFace2测试集上的×4和×8SR任务，进行了三种消融研究，以评估多样本图像，基于ASFF的融合，MLS和AdaIN模块。(1) 多样本图像。我们从每个测试组中随机选择固定数量的引导图像来实现我们的ASFFNet的四个变体，即，我们的（#10），我们的（#5），我们的（#3），我们的（#1）。从表1可以看出，随着使用更多的范例图像，获得了更好的定量结果。此外，增加样本图像对×8SR的影响更明显，表明多样本图像的使用更有效。对困难的任务有效如图3、当样本图像的数量不足时，所选择的引导图像更有可能与退化图像具有不同的姿态和表情，并且视觉伪影仍然可以被2714类型×4×8PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓我们的（#1）27.990.9250.10724.190.8730.252我们的（#3）28.030.9280.10424.300.8790.247我们的（#5）28.060.9300.10324.330.8810.238我们的（#10）28.070.9300.10324.340.8810.238表1：ASFFNet在不同样本编号上的比较表2：不同ASFFNet变体的比较。输入我们的（#1）我们的（#3）我们的（#5）我们的（#10）地面实况图3：ASFFNet在不同样本数上的视觉比较。右下角的特写是所选的指导。从重建结果来看。GFRNet和GWAINet在同一随机制导输入引导我们的（4-Concat）我们的（无4-Atten）我们的（1-ASFF）我们的（2-ASFF）我们的（4-ASFF）地面实况在我们的供应中报告。(2) 基于ASFF的融合。为了评估渐进融合，我们实现了几个ASFFNet模型，具有不同数量的ASFF块，我们的（ 1-ASFF ），我们的（2-ASFF ），我们的（ 4-ASFF），我们的（8-ASFF）。为了评估自适应特征融合，我们考虑了我们的ASFFNet的四个变体，即，我们的（1-Concat）通过在我们的（1-ASFF）、我们的（4-Concat）、我们的（w/o 1- Atten）中用基于级联的融合替换ASFF，通过去除我们的（1-ASFF）和我们的（w/o 4-Atten）中的注意力掩码。从表2中，我们的ASFFNet在三个定量指标方面优于我们的（Concat）和我们的（w/o Atten），清楚地表明了自适应空间特征融合的有效性。此外，得益于渐进融合，通过堆叠更多的ASFF块可以获得更好的性能，并且当ASFF块的数量大于4时，性能开始饱和。因此，我们采用我们的（4-ASFF）作为默认的ASFFNet模型。图4给出了不同融合方法的结果可以看出，我们的（4-ASFF）在抑制视觉伪影的同时，有效地生成具有精细细节的锐利结果。(3) 空间对齐和照明平移。我们考虑三个ASFFNet变体，即，Ours（w/o AdaIN）通过移除AdaIN模块，Ours （ w/o MLS ）通过移除 MLS 模块，以及 Ours（UntrainFg）通过用VGGFace网络初始化引导特征提取子网Fg，然后在训练期间保持不变。从表2可以看出，空间对准和照明平移都有利于重建性能。MLS的可微性使得Fg是可学习的，也有利于定量性能。4.3. 合成数据集上的实验表3列出了×4和×8SR在三个测试数据集上的定量结果， VGGFace 2 、 CelebA 和 CASIA-WebFace 。至于GFRNet [24]和GWAINet [9]，我们采用三种设置来报告他们的结果，（i）使用正面引导（即，GFRNet和GWAINet），（ii）使用我们的方法选择的指南（即，*GFRNet和图4：不同特征融合方法的视觉比较。（iii）使用我们的训练数据和对我们选定的指导进行测试（即，* 全球森林资源网，*GWAINet）。对于这两个任务（即，×4和×8SR）和三个数据集，我们的ASFFNet可以达到最好的定量度量结果表明，我们的ASFFNet在引导人脸恢复方面具有优越性，并且在VGGFace2训练上学习的模型除GFRNet [24]和GWAINet [9]外，其他竞争方法均未考虑指导图像，这可能解释了其相对较差的性能。我们的ASFFNet在三个设置上的表现也优于GFRNet [24]和GWAINet [9]，这可能归因于自适应和渐进式ASFF块的有效性。在运行时间方面，我们的ASFFNet与GFRNet [24]（约31ms），用于256×256图像，并且可以比GWAINet快3倍[9]。图图5和图6呈现了与竞争的方法，包括 *RCAN，*ESRGAN，WaveletSR[15]，SCGAN [39]，DeburGANV 2 [21]，*GFR-Net和GWAINet [9]。更多的结果在Suppl.*RCAN和 *ESRGAN被建议用于SISR，并且即使将降级图像和引导图像作为输入也不能很好地执行，从而对盲面部恢复执行有限。SCGAN [39]和WaveletSR [15]可以用于人脸去模糊，但不能忠实地恢复真实的人脸结构。通过利用引导图像，*GFRNet和GWAINet [9]可以很好地重建HQ人脸图像，但在保留小尺度细节方面受到限制。相比之下，我们的ASFFNet在重建具有更真实细节的HQ人脸图像时更有效，特别是在胡须和睫毛区域。4.4. 真实世界LQ图像上的结果基于AdaIN的光照变换和基于ASFF的自适应融合也有助于我们的ASFFNet在处理真实世界LQ图像时的泛化能力。为了说明这一点，图。7提供了GFR-Net [24]和我们的ASFFNet在四个真实世界LQ图像上的结果，这些图像具有未知的退化过程，其中面部大小类型×4×8PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓我们的（1-Concat）27.560.9130.24323.320.8630.301我们的（4-Concat）27.590.9150.21223.420.8640.294我们的（不含1-Atten）27.570.9150.16723.460.8650.279我们的（无4-Atten）27.830.9240.13923.630.8720.249我们的（1-ASFF）27.590.9160.14123.510.8650.251我们的（2-ASFF）27.670.9230.12423.720.8730.248我们的（4-ASFF）28.070.9300.10324.340.8810.2382715方法VGGFace2CelebACASIA-WebFacePSNR↑×4SSIM↑LPIPS↓PSNR↑×8SSIM↑LPIPS↓PSNR↑×4SSIM↑LPIPS↓PSNR↑×8SSIM↑LPIPS↓PSNR↑×4SSIM↑LPIPS↓PSNR↑×8SSIM↑LPIPS↓RCAN [45]25.50.896.28222.18.833.29927.51.913.21224.14.876.24928.31.931.26326.61.907.402*RCAN26.29.902.22423.03.845.27627.92.924.21024.54.880.24429.18.934.25626.73.907.383ESRGAN [37]24.54.880.216---27.18.910.180---28.03.929.275---*ESRGAN25.34.892.177---27.89.922.179---29.36.937.257---[21]第二十一话24.73.885.21921.87.827.31027.39.912.20623.83.876.25929.13.934.23426.58.906.393TDAE [41]---18.38.768.392---18.98.788.388---19.79.800.381WaveletSR [15]24.33.879.23421.49.825.27826.52.907.22024.02.875.23029.11.933.28325.11.886.379SCGAN [39]23.80.877.147---26.01.901.139---27.53.914.267---*SCGAN23.86.878.142---26.12.903.135---27.68.915.260---GWAINet [9]---23.54.871.273---25.37.897.219---27.02.909.258†GWAINet [9]---23.65.876.266---25.56.900.212---27.11.909.253*GWAINet---23.87.879.261---25.77.901.210---27.18.910.250GFRNet [24]27.49.910.13023.07.857.29728.45.929.12225.12.893.24130.13.936.22526.56.906.334†GFRNet [24]27.58.914.12723.48.864.29328.69.932.11625.49.898.23030.39.939.20626.83.908.322*GFRNet27.66.921.12223.85.879.26329.01.933.11325.93.901.22730.80.941.18127.19.912.307我们28.07.930.10324.34.881.23829.55.937.05626.39.905.18531.08.948.09927.69.921.219表3：图像超分辨率（×4和×8）的定量结果。↑（↓）表示高（低）为好。输入指导 *RCAN *ESRGAN WaveletSR [15] SCGAN [39]*GFRNet Ours Ground-truth图5：竞争方法的×4SR结果绿色和蓝色框是改进区域。[21][22][23][24][25][26][27]图6：竞争方法的×8SR结果。最好通过放大屏幕来查看。低于80×80。GFRNet [24]通常会改善与输入图像相比的视觉质量但是，部分地由于基于级联的融合的较差的自适应性和泛化能力，可能在重建结果中引入明显的伪像相比之下，我们的ASFFNet可以重建更多的纹理细节，较少的伪影，并且对复杂和未知的退化过程表现出更好的鲁棒性关于真实世界LQ图像的更多结果可以在suppl.5. 结论本文提出了一种改进的盲人脸识别模型，ASFFNet通过解决三个问题，即，多样本图像、空间对准和照明平移以及自适应特征融合。为了从多幅样本图像中进行指导性选择，我们采用了人脸特征点的加权最小二乘模型，并提出了一种特征点权重的学习方法。然后使用移动最小二乘和自适应实例归一化输入引导[24]第二十四话[24]第二十四话图7：真实世界LQ图像的视觉比较。用于特征空间中的引导图像最后部署多个ASFF实验表明，我们的ASFFNet表现出良好的竞争方法，并表现出更好的视觉质量和泛化能力，以现实世界的LQ图像。致谢。本工作得到了国家自然科学基金项目 No.61671182、61872118、U19A2073。2716引用[1] 哈里·C·安德鲁斯和鲍比·雷·亨特数字图像复原。Prentice-Hall 信号处理系列， Engle- wood Cliffs ：Prentice-Hall，1977年，1977年。1[2] Giacomo Boracchi和Alessandro Foi。建立了运动模糊图像复原的性能模型. TIP，2012年。6[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练ICLR，2019。6[4] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。InICCV，2017. 三、六[5] Patrizio Campisi和Karen Egiazarian 盲图像反卷积：理论与应用CRC Press，2016. 1[6] Qingxing Cao，Liang Lin，Yukai Shi，Xiaodan Liang，and Guanbin Li.通过深度再强化学习的注意感知面孔幻觉。在CVPR，2017年。2[7] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼. Vggface2：一个用于识别跨姿势和年龄的人脸的数据集

下载后可阅读完整内容，剩余1页未读，立即下载