没有合适的资源?快使用搜索试试~ 我知道了~
基于人脸分量热图的人脸超分辨率算法辛宇1、巴苏拉·费尔南多1、伯纳德·加内姆2、法提赫·波里克利1、理查德·哈特利11 2澳大利亚国立大学、阿卜杜拉国王科技大学{xin.yu,fatih.porikli,richard.hartley}@ anu.edu.au,Basuraf@gmail.com,Bernard. kaust.edu.sa抽象。现有技术的面部超分辨率方法利用深度卷积神经网络来通过探索局部外观信息来学习低分辨率(LR)面部图案与其对应的高分辨率(HR)对应部分之间的映射。然而,这些方法中的大多数不考虑面部结构,并且由于大的姿态变化和未对准而遭受降级。本文在分析了现有文献的基础上,我们提出了一种通过使用多任务卷积神经网络(CNN)将人脸的结构信息显式地结合到人脸超分辨率处理中的方法。我们的CNN有两个分支:一个分支用于超分辨率面部图像,另一个分支用于预测显著性,测试面部区域的面部分量热图。这些热图鼓励上采样流生成具有更高质量细节的超分辨率面部。我们的方法不仅使用低级信息(即强度相似性),而且还包括中间级信息(即,面部结构)来进一步探索来自LR输入图像的面部分量的空间约束。因此,我们能够超分辨率非常小的未对齐的人脸图像(16×16像素),放大因子为8×,同时保留人脸结构。广泛的实验证明,我们的网络实现了卓越的人脸幻觉的结果,并优于国家的最先进的。关键词:人脸,超分辨率,幻觉,面部局部化,多任务神经网络。1介绍人脸图像为人类观察和计算机分析提供了重要线索[1,2]。然而,当面部的分辨率不利地低时,大多数现有面部分析技术(诸如面部对准[3,4]和识别[5])的性能显著降低。人脸超分辨率(FSR)[8],也称为人脸幻觉,提供了一种从低分辨率(LR)人脸图像恢复高分辨率(HR)人脸图像的可行方法,近年来吸引了越来越多的兴趣。现代人脸幻觉方法采用深度学习[9,10,7,11,6,12,13,14,15,16]并实现最先进的性能。这些方法探索从大规模人脸数据集的LR和HR人脸之间的图像强度对应关系。由于近正面的脸在流行的2X.于湾,澳-地费尔南多湾Ghanem,F. Porikli和R. 哈特利(a)(b)(c)(d)(e)(f)(g)Fig. 1. 在极低分辨率(LR)人脸图像上比较最先进的人脸超分辨率方法。列:(a)未对齐的LR输入。(b)原始人力资源图像。(c)对齐的LR面的最近邻( NN ) 。 注 意 , 图 像 强 度 用 于 找 到 NN 。 (d)CBN [6] 。 (e)TDAE [7] 。(f)TDAE†。我们用训练数据集重新训练原始TDAE。(g)我们的结果。大规模人脸数据集[17,18],基于深度学习的FSR方法可能无法在大的姿态变化下超分辨LR人脸,如图2的示例所示。1.一、事实上,在这些示例中,面部结构已经被扭曲,并且面部细节不能通过最先进的超分辨率方法完全恢复。补救这个问题的一个天真的想法是用大的姿势变化(即,姿势变化)来增强训练数据。,[19]),然后重新训练神经网络。如图1(f),该策略仍然导致次优结果,其中由于LR面部图案的错误定位而导致面部细节缺失或失真。这种限制在基于强度的FSR方法中是常见的,该方法仅利用超分辨率中的局部强度信息,并且不考虑面部结构或姿态。我们假设,明确利用LR面部中面部组件位置信息的方法有能力提高超分辨率性能。超分辨率LR面部图像的另一种方法是提前定位面部成分,然后逐步对它们进行上采样[20,6]。然而,以高精度定位这些面部组件通常是困难的任务在非常LR的图像中,特别是在大的姿态变化下。如图1(e),Zhu等人的方法。[6]未能准确地定位面部组件,并且产生具有严重失真的HR面部。因此,直接检测LR面部中的面部成分或地标是次优的,并且可能导致最终结果中的重影伪影。与以前的方法相比,我们提出了一种方法,超分辨率LR人脸图像,同时预测人脸结构的协作方式。我们的直觉是,尽管难以准确地检测LR面部图像中的面部地标,但是可以定位面部组件(而不是地标)并识别超分辨率面部或中间上采样特征图上的组件的可见性,因为它们可以提供足够的分辨率以用于识别。人脸超分辨率3本地化获得面部组件的位置进而可以促进面部超分辨率。在这个想法的驱动下,我们提出了一个多任务深度神经网络来对LR图像进行上采样。与最先进的FSR方法[7,6,12,13]相比,我们的网络不仅可以超分辨LR图像,还可以估计其面部组件的空间位置。然后,估计的面部组件的位置被视为一个指导地图,提供了超分辨率的人脸结构。在这里,面部结构是指面部组件的位置和可见性以及它们之间的关系,我们使用热图来表示每个组件出现的概率。由于输入面的分辨率小(即,,16× 16像素),定位面部组件也非常具有挑战性。我们选择在超分辨率特征图上定位面部组件,而不是在LR图像中检测面部组件。具体来说,我们首先对输入LR图像的特征进行超分辨,然后采用空间Transformer网络[21]来对齐特征图。上采样的特征图用于估计面部分量的热图。由于特征图是对齐的,因此相同的面部组件可以紧密地出现在对应的位置处。这也提供了对组件定位的初始估计。此外,当输入面部或特征图被预对齐时,我们还可以大大减少用于定位面部组件例如,我们只使用30K LR/HR人脸图像对来训练我们的网络,而最先进的人脸对齐方法[4]需要大约230K图像来训练地标定位网络。在获得面部组件的估计热图之后,我们将它们与上采样的特征图连接,以将面部组件的空间和可见性信息注入到超分辨率过程中以这种方式,更高级别的信息以外的像素的强度相似性进行了探索,并作为一个额外的先验FSR。如图1(g),我们提出的网络能够在大姿态下对LR面部进行上采样,同时保留上采样面部图像的空间结构。总的来说,我们工作的贡献可以概括为:– 提出了一种新的多任务框架,通过8倍的放大因子对16×16像素的LR人脸图像进行超分辨,该框架不仅利用了图像强度相似性,而且在人脸超分辨中优先探索了人脸结构。– 我们不仅对LR人脸进行上采样,而且在框架中估计人脸结构。我们估计的面部组件热图不仅提供了面部组件的空间信息,而且还提供了它们的可见性信息,这不能从像素级信息中推断出来。– 我们证明,建议的两个分支,即。上采样和面部分量估计分支在超分辨率中相互协作,从而实现更好的面部超分辨率性能。– 由于我们的网络架构的设计,我们能够从上采样的特征图估计面部分量热图,这为估计提供了足够的分辨率和细节此外,由于FEA-4X.于湾,澳-地费尔南多湾Ghanem,F. Porikli和R. 哈特利通过在热图估计之前对齐真实图,我们可以大大减少用于训练热图估计分支的训练图像的数量。据我们所知,我们的方法是第一次尝试使用多任务框架来超分辨非常LR的人脸图像。我们不仅专注于学习LR和HR面部模式之间的强度相似性映射,类似于[7,13,22],而且还探索来自图像本身的面部结构信息,并将其用作超分辨率的额外先验。2相关工作利用面部先验知识,如面部组件的空间配置,在面部幻觉中是不同于一般超分辨率任务的关键因素基于先验的使用,人脸超分辨率方法可以大致分为基于全局模型的方法和基于部分的方法。基于全局模型的方法旨在通过学习诸如PCA的整体外观映射来超分辨LR输入图像Wang和Tang [23]分别从LR和HR人脸图像中学习子空间,然后从LR输入的PCA系数重建HR输出 Liu等人 [24]采用LR人脸图像超分辨率的全局模型,但也开发了马尔可夫随机场(MRF),以减少由LR图像中的未对准引起的重影伪影。Kolouri和Rohde [25]采用最优传输技术通过插值示例HR面来变形HR输出。为了学习一个好的全局模型,LR输入需要被精确地对准并且共享与范例HR图像相似的姿势当LR输入中存在大的姿态变化提出了基于部分的方法来分别超分辨各个面部区域。它们基于训练数据集中的参考块或面部组件来重建LR输入的HR对应物。Baker和Kanade [26]搜索LR和HR补丁之间的最佳映射,然后使用匹配的HR补丁来恢复对齐的LR人脸图像的高频细节。受此想法的启发,[22,27,28,29]对从多个对齐的HR图像中提取的加权位置块进行平均,以在图像强度域或稀疏编码域中对对齐的LR面部然而,基于补丁的方法还需要LR输入提前对齐,并且当放大因子太大时可能代替使用位置补丁,Tappen和Liu [30]通过扭曲参考HR图像来超分辨率HR面部组件 Yang等人 [20]通过面部标志检测器定位LR图像中的面部成分,然后从类似的HR参考成分重建丢失的高频细节。由于基于面部组件的方法需要在LR图像中提取面部部分,然后将它们准确地对准到示例图像,因此当输入面部的分辨率变得不利地小时,它们的性能急剧下降。最近,深度学习技术被应用到人脸幻觉领域,并取得了重大进展。[10] Yu和Porikli [10]给出了一个判别式。人脸超分辨率5主动生成网络,以使对齐的LR面部图像产生幻觉。他们的后续工作[31,7]将多个空间Transformer网络[21]与去卷积层交织在一起,以处理未对齐的LR面。Xu等人。 [32]采用生成对抗网络的框架[33,34]通过多类判别损失来恢复模糊的LR人脸图像 Dahl等人 [13]利用PixelCNN[35]的框架来超分辨率非常低的面部。由于上述深度卷积网络仅考虑超分辨率中的局部信息,而不考虑整体面部结构,因此它们在超分辨率非正面LR面部时可能会扭曲面部结构。 Zhu等人 [6]提出了一个级联双网络,称为CBN,首先定位LR面部组件,然后对面部组件进行上采样,但当发生定位错误时,CBN可能会产生重影面部。与我们的工作同时,算法[15,14]也在面部幻觉中使用面部结构。与他们的工作相反,我们提出了一个多任务网络,可以以端到端的方式进行训练。特别是,我们的网络不仅可以估计面部热图,还可以利用它们来实现高质量的超分辨率结果。3我们提出的方法我们的网络主要由两部分组成:多任务上采样网络和判别网络。我们的多任务上采样网络(MTUN)由两个分支组成:上采样分支和面部分量热图估计分支(HEB)。图2说明了我们提出的网络的整体架构。整个网络以端到端的方式进行训练。3.1面部成分热图估计当输入图像的分辨率太小时,面部组件将更小。因此,现有技术的面部标志检测器很难准确地定位非常低分辨率图像中的面部标志然而,我们建议从超分辨率特征图预测面部组件热图,此外,由于2D面部可以表现出宽范围的姿态,诸如平面内旋转、平面外旋转和比例变化 , 因 此 我 们 可 能 需 要 大 量 的 图 像 来 训 练 HEB 。 例 如 , Bulat 和Tzimiropoulos [4]需要超过200K的训练图像来训练地标检测器,并且[4]的准确性与人类标记之间仍然存在差距。为了缓解这个问题,我们的直觉是,当面部大致对齐时,相同的面部组件紧密地位于相应的位置。因此,我们采用空间Transformer网络(STN)来在估计热图之前对齐上采样的特征。通过这种方式,我们不仅简化了热图估计,还显著减少了用于学习HEB的训练图像的数量6X.于湾,澳-地费尔南多湾Ghanem,F. Porikli和R. 哈特利图二. 我们的多任务上采样网络的管道。在测试阶段,使用上采样分支(蓝色块)和热图估计分支(绿色块)。我们使用热图而不是地标基于三个原因:(i)在LR面部中单独定位每个面部界标是困难的,即使对于人类也是如此,并且错误的界标将导致最终结果的失真。相反,将每个面部组件作为一个整体进行定位要容易得多。(ii)即使是最先进的地标检测器也可能无法在高分辨率图像中输出准确的位置,例如在大姿势的情况下。然而,在这些情况下,估计由热图表示的区域并不(iii)此外,我们的目标是提供每个组件的空间位置和可见性的线索,而不是每个组件的确切形状。使用热图作为概率图更适合我们的目的。在本文中,我们使用四个热图来表示人脸的四个组成部分,即、眼、鼻、口和链。我们利用68点面部标志来生成地面实况热图。具体地,每个地标由高斯核表示,并且核的中心是位置的地标。通过根据特征图或图像的分辨率调整高斯核的标准方差,我们可以为每个分量生成热图。生成的地面实况热图如图所示。3(c)款。请注意,当出现自遮挡时,一些组件不可见,并且它们不会出现在热图中以这种方式,热图不仅提供组件的位置,而且还提供它们在原始LR输入图像中的可见性。为了估计面部组件热图,我们采用堆叠的沙漏网络架构[36]。它利用了重复的自下而上和自上而下人脸超分辨率7(a)(b)(c)(d)(e)图3.第三章。估计的面部组成热图的可视化列:(a)未对齐的LR输入。(b)HR图像。(c)从HR面部图像的地标生成的地面实况热图。(d)我们的结果。(e)估计的热图覆盖了我们的超分辨率结果。请注意,我们将四个估计的热图重叠在一起,并对热图进行上采样以适应我们的上采样结果。该系统能够处理多个尺度的特征,并且能够捕获不同部分之间的各种空间关系正如[36]所建议的,我们还使用中间监督来提高绩效。图中的绿色块图2示出了我们的面部分量热图估计分支。我们将对齐的为了说明HEB的有效性,我们调整大小,然后将估计的热图覆盖在输出图像上,如图1B所示。3(e)。地面实况热图如图所示。3(c)比较。3.2网络架构多任务上采样网络:图2在蓝色和绿色块中说明了我们提出的多任务上采样网络(MTUN)的架构。MTUN由两个分支组成:上采样分支(蓝色块)和面部分量热图估计分支(绿色块)。上采样分支首先对LR输入图像的特征进行超分辨,然后对齐特征图。当特征图的分辨率足够大时,上采样的特征图被馈送到HEB中以估计面部组件的位置和因此,我们获得LR输入的面部分量的热图。然后将估计的热图与上采样的特征图级联以提供用于超分辨率的面部分量的空间位置和可见性信息。在上采样分支中,网络由卷积自动编码器、解卷积层和STN组成。卷积自动编码器被设计为从输入图像中提取高频细节,同时在上采样和对齐之前去除图像噪声,从而提高超分辨率性能。反卷积层用于超分辨特征图。由于输入LR面经历平面内旋转、平移和平移,因此输入LR面的旋转和平移是不对称的。8X.于湾,澳-地费尔南多湾Ghanem,F. Porikli和R. 哈特利(a)(b)(c)(d)(e)(f)(g)(h)图4.第一章超分辨率的不同损失的比较列:(a)未对齐的LR输入。(b)原始HR图像。(c)Lp. (d)Lp+Lf.(e)Lp+Lf+LU。(f)Lp+Lh.(g)Lp+Lf+Lh。(h)Lp+Lf+LU+Lh。为了简单起见,我们省略了权衡权重。在一些实施例中,由于尺度变化,STN用于补偿那些仿射变换,因此促进面部分量热图估计。在获得对齐的上采样特征图之后,HEB使用那些特征图我们建造我们的高灵通过堆叠的沙漏架构[36],它由残差块和上采样层组成,如图3的绿色块所示。二、我们的多任务网络旨在对输入的人脸图像进行超分辨率处理,并预测图像中面部成分的热图。参见图如图4(c)所示,当我们仅使用上采样分支来超分辨面部而不使用HEB时,面部细节被模糊,并且一些面部分量,例如,嘴和鼻子在大的姿势中被扭曲。此外,热图监督还迫使GPU更准确地对齐上采样的特征,从而提高超分辨率性能。因此,这两项任务相互协作,相互受益。如图4(f),我们的多任务网络实现了更好的超分辨率结果。判别网络:最近的工作[10,7,32,37]表明,仅使用上采样面和地面真实HR面之间的欧几里得距离(102损失)往往会输出过度平滑的结果。因此,我们在我们的网络中加入了一个判别目标,以迫使超分辨率的HR人脸图像位于真实人脸图像的流形上。如图中的红色方框所示2,判别网络由卷积层和完全连接层构成,类似于[34]。它被用来确定一个图像是从真实的人脸图像或幻觉的。区分性损失,也称为对抗性损失,被反向传播以更新我们的上采样网络。以这种方式,我们可以超分辨更真实的HR面部,如图1B所示。4(h)。3.3损失函数像素损失:由于上采样的HR面部在图像强度方面应该与输入的LR面部相似,因此我们也采用欧几里得距离。人脸超分辨率9被称为逐像素(pixel-wise)损失,以如下实施这种相似性Lp(w)=Eˆǁhˆi−hiǁ2=E(l,h)p(l,h)Uw(li)−hi2, (1)(hi,hi)p(h,h)Fi iF其中,h(l,h)表示由我们的MTUN进行上采样的人脸,其中,m是MTUN的参数,li和hi分别表示LR输入图像及其HR地面实况对应物,p(l,h)表示LR和HR人脸在上采样人脸中的联合分布,并且p(hi,h)表示上采样的HR人脸及其对应的HR地面实况的联合分布。特征损失:如[10,37,32]中所述,仅使用像素损失将产生过度平滑的超分辨率结果。为了实现高质量的视觉结果,我们还约束上采样的面部以与其HR对应物共享相同的目标函数表示为:Lf(w)=Eψ(hi)−ψ(hi)2=E(l,h)p(l,h)ψ(Uw(li))−ψ(hi)2,(2)(hi,hi)p(h,h)Fi iF其中ψ(·)表示VGG-19 [38 ]中的层的特征图。我们使用层ReLU32,这在我们的实验中给出了良好的经验结果。判别损失:由于超分辨率本质上是欠定问题,因此LR图像与HR图像之间将存在许多可能的映射。即使施加强度和特征相似性也可能无法保证上采样网络可以输出逼真的HR面部图像。我们采用了一个判别网络,迫使幻觉的脸躺在同一个流形的真实人脸图像,我们的目标是使判别网络无法区分的上采样的脸从真实的。因此,判别网络D的目标函数被公式化为:LD(d)=E(hi,hi)p(h,h)ΣΣlogDd(hi)+ log(1−Dd(hi))(三)其中d表示判别网络D的参数,p(h)、p(l)和dp(h_i)表示实际HR、LR和上一级分解系数的特征,并且Dd(h_i)和Dd(h_i)是D的输出。为了使我们的离散神经网络将真实面部与上采样的面部区分开,我们最大化损失L_D(d),并且损失被反向传播以更新参数d。为了欺骗判别网络,我们的上采样网络应该生成与真实面孔相似的面孔。因此,上采样网络的目标函数被写为:LU(w)=E(hi)p(h)ΣΣlogDd(hi)=Elip(l)[log Dd(Uw(li))]。(四)我们最小化Eqn。4使我们的上采样网络生成逼真的HR人脸图像。损失LU(w)被反向传播以更新参数w。面结构损失:与以前的作品[7,32,10]不同,我们不仅采用图像像素信息(即像素方面和特征方面的损失),而且还在超分辨率期间探索面部结构信息。为了实现空间10X.于湾,澳-地费尔南多湾Ghanem,F. Porikli和R. 哈特利J基于面部分量与其可见性之间的关系,我们从上采样特征估计面部分量的热图如下:ΣMLh(w)=E(l,h)p(l,h)1ΣNHk(hi)−Hk(Ui iMNk=1jj2j=1其中,M是面部组件的数量,N指示面部组件中的G_aSS_an_e_n_l的数量,U_w(l_i)是所述面部组件中的所述G_aSS_an_e_n_l_n_l的数量。真实映射,Hk表示第k个热图中的第j个核,并且Hk(hi)J J并且Hk ( U~w(li))不具有该粗结构,并且在该粗结构中具有最小的kerelpoitii n热图由于自遮挡,面部分量的一些部分是不可见的,并且因此N根据热图中的那些核的可见性而变化。注意,参数w不仅指上采样分支中的参数,而且指热图估计分支中的参数。培训详情:在训练我们的判别式网络D时,我们仅使用等式1中的损失L_D(d)。3以更新参数d。由于判别网络旨在将上采样的面部与真实面部区分开,因此我们通过随机梯度上升来最大化LD(d在训练我们的多任务上采样网络U时,多个损失,即,Lp,Lf、Lu和Lh被涉及以更新参数w。因此,为了实现真实的超分辨率HR面部图像,用于训练上采样网络U的目标函数LT被表达为:LT=Lp+αLf+βLU+Lh,(6)其中α、β是权衡权重。 由于我们的目标是根据外观相似性恢复HR人脸,因此我们将α和β设置为0。01.我们通过随机梯度下降来最小化LT具体来说,我们使用RMSprop优化算法[39]来更新参数w和d。判别网络和上采样网络以交替的方式进行训练。学习率r被设置为0。001乘以0。99、每一个时代 我们使用衰减率0。01在RMSprop中。3.4实现细节在我们的多任务上采样网络中,我们采用STN估计的相似性变换来补偿 平 面 内 的 未 对 准 。 在 图 2 中 , STN 由 卷 积 层 和 ReLU 层(Conv+ReLU)、步幅为2的最大池化层(MP2)和全连接层(FC)构建。具体来说,我们的STN由MP2,Conv+ReLU(k5s1p0n20),MP2,Conv+ReLU(k5s1p0n20),MP2,FC+ReLU(从80到20维)和FC(从20到4维)组成,其中k,s和p分别表示过滤器,步幅和填充的大小,n表示输出特征映射的通道号。我们的HEB是通过堆叠四个沙漏网络构建的,我们还对每个沙漏网络的输出应用中间残差块由BN、ReLU、Conv(k3s1p1nNi)、BN、ReLU和Conv(k1s1p0nNo)构造,其中Ni和No指示输入和输出特征图的通道号。1人脸超分辨率11在实验部分,一些算法需要LR输入的对齐,例如。,[22]。因此,我们采用STN0来将LR面部图像对准到直立位置。STN0由Conv+ReLU(k5s1p0n64)、MP2、Conv+ReLU(k5s1p0n20)、FC+ReLU(从80到20维)和FC(从20到4维)组成。4实验结果为了评估我们提出的网络的性能,我们与最先进的方法[40,37,22,6,7]进行了定性和定量比较。Kim等人 [40]采用非常深的卷积网络来超解析通用图像s,k,n,w,n作为VD_SR。 Ledigetal. 的方法[ 37 ],称为SRGAN,是一种通用的超分辨率方法,其采用生成式对抗网络的框架,并使用像素级和高级操作系统进行绘制。 Maetal. 的方法[ 22 ]利用数据集中的位置块来重建HR图像。Zhuetal. 的方法[ 6 ],称为CNN,对LR输入图像中的面部成分进行局部化,然后对局部化的面部部分进行超解析。Yu和Porik-li [7]通过变换判别式自动编码器(TDAE)对非常低分辨率的未对齐人脸图像进行上采样。4.1数据集虽然有大规模的人脸数据集[17,18],但它们不提供结构信息,即用于生成地面实况热图。此外,我们发现,作为最大的人脸数据集之一,名人人脸属性(CelebA)数据集[17]中的大多数人脸都是近正面的。因此,我们使用来自Menpo面部标志定位挑战(Menpo)[19]的图像以及来自CelebA的图像来生成我们的训练数据集。Menpo [19]提供了不同姿态的人脸图像及其对应的68点界标或当一些面部部分不可见时的39点界标。因为Menpo只包含大约8K的图像,我们还从CelebA收集了另外22K的图像。 我们裁剪对齐的面,然后将它们调整为128×128像素作为我们的HR地面实况图像hi。我们的LR人脸图像li是通过变换并且将HR面部下采样到16×16像素。我们选择80%的图像对进行训练,20%的图像对进行测试。4.2与SoA的由于[22]需要在超分辨率之前对齐输入LR面部并且[7]自动输出直立HR面部图像,因此我们通过空间变换器网络STN0对齐LR面部以进行公平比较和更好的说明。还示出了直立HR地面实况图像以用于比较。双三次插值仅对来自相邻像素的图像强度进行上采样,而不是为新像素生成新内容。如图在图5(c)中,双三次插值未能生成面部细节。12X.于湾,澳-地费尔南多湾Ghanem,F. Porikli和R. 哈特利方法[22]第二十二届全国人大常委会副委员长CBN[6] TDAE[7] TDAE†我们的†我们的‡我们的表1.对整个测试数据集进行定量比较PSNR18.8318.6518.5718.6618.4918.8721.3922.69 22.83 23.14SSIM0.570.570.550.530.550.520.620.660.650.68VDSR在训练中仅采用逐像素的2损失,并且不提供8倍的放大因子。 我们将VDSR应用于LR面三次,放大因子为2×。如图在图5(d)中,VDSR未能生成真实的面部细节,并且超分辨率面部仍然是模糊的。SRGAN能够直接通过8倍的放大因子对图像进行超分辨率处理,并采用对抗性损失来增强细节。然而,SRGAN不考虑整个面部结构,因此输出围绕面部组件(诸如眼睛和嘴)的环形伪影,如图1B所示。5(e).Maetal. 在LR输入中的所有对齐元的处理通过位置补丁使HR面部产生幻觉。参见图如图5(f)所示,明显的模糊伪影和重影面部分量出现在幻觉面部中。随着放大因子的增加,LR和HR斑块之间的对应关系因此,超分辨人脸图像遭受严重的块状伪影。CBN首先定位LR人脸中的面部组件,然后通过两个分支对人脸细节和整个人脸图像进行如图在图5(g)中,CBN在近正面面部中生成与HR地面实况图像不一致的面部分量,并且未能在大姿势中生成逼真的面部细节这表明,它是难以定位的面部组件在LR脸准确。TDAE采用2和对抗性损失,并使用近正面人脸进行训练。由于我们的测试数据集中的各种姿势,TDAE无法对齐大姿势的人脸。为了进行公平的比较,我们使用我们的训练数据集重新训练TDAE的解码器。如可见于图5(h),TDAE仍然无法获得逼真的面部细节由于各种姿势和未对准。我们的方法重建真实的面部细节,如图所示。5(i)。我们的面部组件热图不仅便于对齐,而且还提供面部组件的空间配置因此,我们的方法能够产生视觉上令人愉悦的HR面部细节,类似于地面真实面部,同时保留面部结构。(更多结果见补充材料。)4.3与SoA的我们还通过平均PSNR和结构相似性(SSIM)得分在整个测试数据集上定量评估了所有方法的性能。表1表明我们的方法与其他方法相比实现了优异的性能,即在PSNR方面,其性能优于第二好的PSNR,有1.75dB的较大裕度请注意,TDAE发布模型的平均PSNR为人脸超分辨率13(a)(b)(c)(d)(e)(f)(g)(h)(i)图五.与最先进方法的比较。(a)LR输入未对齐。(b) OriginalHRimage s. (c)生物多样性政策。 (d)Kimetal. 的方法[ 40 ](V DS R)。(e)Ledigetal. 的方法[ 37 ](S R G AN)。 (f)Maetal. 的方法[ 22 ]。 (g)Zhuetal. 的方法[ 6 ](C B N)。 (h)YuandPorikli的方法[ 7 ](T D A E)。由于TDAE不使用近正面人脸图像进行训练,因此我们使用我们的 训练数据集对其进行重新训练。(i)我们的方法。只有18.87分贝,因为它是用近正面的脸训练的。即使在保留TDAE之后,由TDAE†表示,其性能仍然不如我们的结果。这也意味着我们的方法定位面部组件,并在我们估计的热图的帮助下更准确地对齐LR面部。5分析与探讨HEB的有效性:如图通过比较图4(c)、图4(d)和图4(e),我们证明了没有HEB的视觉结果遭受失真和模糊伪影。通过采用HEB,我们可以定位面部组件,如图1B所示。3,然后恢复逼真的面部细节。此外,HEB提供了面部组件的空间位置和用于面部对准的附加约束。因此,我们实现了更高的重建性能,如表1所示。3 .第三章。HEB的特征尺寸:在我们的网络中,有几个层可用于估计面部成分热图,即分别为大小为16、32、64和128的特征图。我们采用HEB在不同的层,并证明了特征图的大小的影响。由于GPU内存的限制,我们只比较了使用大小特征的超分辨率性能14X.于湾,澳-地费尔南多湾Ghanem,F. Porikli和R. 哈特利表2. HEB的消融研究损耗的消融研究位置深度R16R32S1S2S3S4w/ oLhw/LhLpLp+fLp+f+ULpLp+fLp+f+UPSNR 21.97 21.9822.32 22.91 22.93SSIM 0.63零点六四0.640.670.670.68PSNR 21.43 21.57 21.55 23.23 23.3523.14SSIM 0.660.660.650.690.690.6816(R16)、32(R32)和64(S4)来估计热图。如Tab.所示。二、随着特征图分辨率的增加,我们获得了更好的超分辨率性能。因此,我们使用大小为64×64的上采样特征图来估计热图。HEB的深度:表2展示了受沙漏网络的堆叠数量影响的性能由于GPU内存的限制,我们只在堆栈数量从1到4的范围内进行实验如Tab中所示2,最终性能随着堆叠数量的增加而提高因此,我们将HEB的堆栈编号设置为4。损失函数:表3还指示了不同损耗对超分辨率性能的影响。如Tab中所示。如图3和图4所示,使用面结构损失定性和定量地改善了超分辨结果特征方面的损失提高了视觉质量,并且区分性损失使幻觉面部更清晰和更逼真,如图1B所示。4(h)。跳过连接和自动编码器:考虑到热图中存在估计误差,将特征图与错误的热图融合可能导致最终输出失真。因此,我们采用跳过连接来校正图1B中的错误。二、如Tab中所示。1,使用跳跃连接,我们可以提高最终的定量结果在PSNR的0.45 dB。不使用跳过连接的结果由Ours®指示。我们还删除了我们的自动编码器和直接上采样LR输入,结果表示为Ours‡。如Tab.所示。1,我们实现了0.31 dB的改进与自动编码器的帮助。6结论我们提出了一种新的多任务上采样网络超分辨率非常小的LR人脸图像。我们不仅利用图像的外观相似性,但也利用人脸结构信息估计LR输入图像本身在超分辨率。在我们的面部组件热图估计分支的帮助下,我们的方法超分辨不同姿势的面部,而不会因LR输入中的错误面部组件定位而导致失真。鸣谢:这项工作得到了澳大利亚机器人视觉卓越研究中心(项目编号CE140100016)、澳大利亚皇家科学院博士生导师基金会(项目编号DP150104645)和阿卜杜拉国王科技大学(KAUST)赞助研究办公室的支持。人脸超分辨率15引用1. Fasel,B.,Luettin,J.:自动面部表情分析:调查。模式研究36(1)(2003)259-27512. 赵文,切拉帕河Phillips,P.J. Rosenfeld,A.:人脸识别:一个文学研究所。ACM C MC M CMP UUU RS SSR35(4)(2003)3993. Xiong,X.,中国农业科学院,De la Torre,F.:监督下降法及其在人脸配准中的应用在:IEEE计算机视觉和模式识别会议(CVPPR)的会议记录中。(2013年)5324. Bulat,A.,Tzimiropoulos,G.:我们离解决二维三维人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。国际计算机视觉会议(ICCV)。(2017)1,3,55. Taigman,Y.,杨,M.,Ranzato,M.,沃尔夫湖:Deepface:缩小与人脸验证中人类水平性能的差距在:Proceedings of the IEEE Conference onC〇mputerVis isinandPater nRecognit i tin(CVPR)中。(2014)17016. Zhu,S.,Liu,S.,Loy,C.C.,唐X:用于人脸识别的深度级联双网络。欧洲计算机视觉会议(ECCV)论文集。(2016)614- 630 1,2,3,5,11,12,137. Yu,X.,Porikli,F.:通过变换判别式自动编码器产生非常低分辨率的未对 齐 和 噪 声 人 脸 图 像 的 幻 觉 。 在 : Proceedings of the IEEEConferenceonComuterVis i sinandPater nRecognitin(CVPR)中。(2017)37608. Baker,S.,Kanade,T.:幻觉的面孔。在:第四届IEEE自动人脸和手势识别国际会议论文集,FG 2000中。(2000年)83-8819. Zhou , E. , Fan , H. : 在 野 外 学 习 脸 部 幻 觉 。 在 : 第 二 十 九 届AAAIConferenceonArtificialnteligence。(2015)387110. Yu,X.,Porikli,F.:基于判别生成网络的超分辨人脸图像。欧洲计算机视觉会议(ECCV)论文集。(2016)31811. Yu , X. , Porikli , F.: 通 过 去 卷 积 网 络想 象 难 以 想 象 的 面 孔 。 IEEETransactions on Image Processing(2018)112. 曹Q.林,L.,施,Y.,梁湘,李,G.: 注意觉性面孔幻觉通过深度强化学习。在:Proceedings of the IEEE Computer Society C〇nferenceonC〇mputerrVis isinandPatter nRecognition ( CVPR ) 中 。 沪 公 网 安 备31010502000112号13. 达 尔 河 Norouzi , M. , Shlens , J. : 像 素 递 归 超 分 辨 率 。 In :InternationalConferenceonComputerVision(ICCV). (2017)543914. Bulat,A.,Tzimiropoulos,G.:Super-fan:集成的面部标志定位和真实世界中任意姿势的低分辨率面部的超分辨率。arXiv预印本arXiv:1712.02765(2017)1,515. 陈玉,Tai,Y.,Liu,X.,中国科学院院士,Shen,C.,Yang,J.:Fsrnet: 端到 端 学习 面 部超 分 辨率 与 面部 先 验。 arXiv预 印本 arXiv :1711.10703(2017)1,516. Yu,X.,Fernando,B.,哈特利河Porikli,F.:具有补充属性的超分辨率极低 分 辨 率 人 脸 图 像 。 在 : Proceedings of the IEEE ConferenceonC 〇mputerVis isinandPatter nRec 〇 gnitin(CVPR)中。(2018)90817. 刘紫薇,罗平,X.W.,唐X: 在野外深度学习人脸属性。 国际计算机视觉会议(ICCV)论文集。(2015)3730- 3738 2,1116X.于湾,澳-地费尔南多湾Ghanem,F. Porikli和R. 哈特利18. Huang,G.B.,Ramesh,M.,Berg,T.,Learned-Miller,E.:在野外贴上标签的脸:研究无约束环境下人脸识别的数据库。Technical Report 07-49,University of Massachusetts,Amherst(2007)2,1119. Zafeiriou,S.,Trigeorgis,G.,Chrysos,G.,Deng,J.,Shen,J.:Menpo面部护理地标定位挑战:这是解决问题的一步。In:ProceedingsIEEE计算机视觉和模式识别研讨会(CVPRW)。(2017)211620. Yang,C.Y.,Liu,S.,Yang,M.H.:结构性面部幻觉。In:Proceedings ofIEEE计算机协会计算机视觉和模式识别会议(CVPR)。(2013)109921. Jaderberg,M.,西蒙尼扬,K.,Zisserman,A.,等:空间Transformer网络。I n:AvancesinNeura lI nfr oces sinSyss(N I PS)。(2015)201722. 马翔,张俊平,C.Q.: 通过位置贴片产生幻觉。图案Rec 〇 gnit〇n43(6)(2010)222423. 王,X.,唐X:用本征变换产生幻觉 IEEE Transactions on Systems,Manand Cybernetics Part C:Applications and Revi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功